目录
摘要
针对算力网络中的度量与建模问题,从算力网络度量体系的狭义和广义定义出发,阐述了当前算力网络度量与建模的研究进展,包括算力网络资源度量和算力网络需求度量两大部分。站在算力网络服务的角度,提出了以服务为中心的算力网络度量与建模方案的思考,并对该方案当前仍存在的问题和所面临的技术挑战进行了归纳和讨论。
关键词: 算力网络; 算网融合; 算网度量
0 引言
在数字经济时代的今天,作为推动全球经济持续健康发展的一大动力源泉,算力产业得到了空前发展[1]。据中国信息通信研究院测算,截至2021年年底我国算力核心产业规模达1.5万亿元,相关联的产业规模也超过了8万亿元[2],全球算力总规模达到521 EFLOPS,其中我国算力总规模排名第二位,达到140 EFLOPS以上[3]。智慧城市、智能驾驶等新型应用不断兴起,对于数据的存储、处理、分析等能力提出了更高的要求。算力作为工业互联网、云计算、大数据等新兴技术发展的重要支撑,其重要性日益凸显。
在数字经济时代,算力和网络向着一体化融合的方向不断演进和发展。算力网络的核心思想是将分布式的计算节点进行连接,动态感知计算与网络资源的实时变化情况,从而实现节点资源的精准调度与任务的统筹分配,以满足新业务和新应用对算力资源的新要求[4]。面向未来不断增长的差异化业务需求,算力资源的提供方将不再是传统意义上的数据中心或者服务器集群,而是存在于云、边、端的泛在算力通过网络连接起来实现高效共享。因此亟需建立一种统一的算力网络度量标准,为算力路由、设备管理和资源计费等后续研究奠定基础。然而目前对算力网络度量与建模的研究大多还处于理论阶段,笔者对于目前已有的研究工作进行了归纳总结,并从未来多样化业务需求的角度考虑,探索一种以服务为中心的算力网络度量与建模方案。
1 算力网络度量体系概述
近年来,算力网络是一个受业界广泛关注的热门话题。在传统的定义中,“算力是什么”这个问题长期以来没有一个标准答案,如何实现多元化、差异化算力的一致化表达是算力网络度量的一大核心问题。
1.1 狭义算力网络度量体系
传统研究中通常将算力归结为一种硬件设备处理单元或系统软件平台对于业务或数据的计算分析能力。Frank H. McMahon提出了一种“浮点运算次数”的算力表示方法,并在其研究报告中引入了每秒浮点运算次数(Floating-point Operation Per Second,FLOPS)的概念[5]。当前最为认可的算力表征方式是根据算法和计算类型将算力划分为逻辑运算能力、并行计算能力和神经网络计算能力[6],并初步建立了统一的算力资源度量指标体系,如表1所示。
表1 狭义算力度量指标
名称 |
逻辑运算能力 |
并行计算能力 |
神经网络计算能力 |
基本定义 |
通用基础运算能力 |
处理如图形、图像等统一数据类型的高效计算能力 |
对机器学习、神经网络等进行加速的计算能力 |
硬件代表 |
CPU |
GPU、FPGA、ASIC |
NPU、TPU |
度量单位 |
TOPS |
TFLOPS/MFLOPS/GFLOPS/PFLOPS |
FLOPS |
新窗口打开| 下载CSV
传统的算力网络研究大多是以计算为核心而以网络为底层基础设施和通信保障。网络被认为是一种具有独立功能的计算机或设备借助通信介质连接形成的整体,其度量指标包括网络带宽、端到端时延、时延抖动、传输丢包率等,如表2所示。计算与网络的分别定义和度量一定程度上解决了发展初期的资源抽象问题,笔者将其定义为狭义算力网络度量体系。然而面向未来差异化的业务场景,此种度量方式仍有很大的问题,计算和网络分离可能会导致应用层与网络层的解耦,应用难以精准实时掌握网络状态,且针对单一的计算资源设计的算力网络调度策略,实际达到的综合性能可能不是最优的,从而影响用户体验。面向未来多样化的业务场景,需要将计算和网络紧密融合,考虑一种面向算力网络融合环境的新型算力网络度量模式,精准匹配业务需求,灵活调度算力网络资源。
表2 狭义网络度量指标
名称 |
网络带宽 |
端到端时延 |
时延抖动 |
传输丢包率 |
基本定义 |
节点在单位时间内能发送/接收的最大数据量 |
用户获得服务的总时延,包括发送时延、传播时延、排队时延 |
网络时延的变化程度,最大时延与最小时延的时间差 |
传输中丢失的数据包占所发送数据包的比率 |
度量单位 |
bit/s |
ms |
ms |
% |
新窗口打开| 下载CSV
1.2 广义算力网络度量体系
作为构建算力网络的三个关键维度,“算—网—存”的融合发展将成为新技术、新业态发展的新动能。据IDC预测,到2025年全球数据量预计将能够超过175 ZB,其中中国的数据量也将达到40 ZB[7],庞大的数据量对计算、网络、存储等资源提出了更高的要求。在云、边、端三层架构间根据业务需求实现按需分配和灵活调度的将不再仅仅是节点的计算资源,还应该包括网络、存储等多维度资源。郭亮等在对数据中心的算力评估研究中,曾将算力指标划分为通用计算能力、高性能计算能力、存储能力、网络能力四大核心要素[8]。国内运营商在其2021年的研究报告中提出,将算力节点的资源划分到计算、通信、内存和存储四个维度进行度量评估[9]。考虑到算力网络的“算—网—存”一体化融合发展的趋势,笔者拟从计算、存储、网络三个方面对现有研究进行总结分析。
针对各个度量维度,需要分别建立对应的指标体系。如表3所示,笔者总结了在当前研究中获得认可的计算、网络和存储的度量指标[10]。“算—网—存”融合的算力网络度量体系,在原有计算能力度量的基础上,加入了网络和存储维度,笔者将其定义为一种广义的算力网络度量体系。
表3 广义算力网络度量指标体系
维度 |
指标名称 |