算力与GPU卡入门解析|晚安是一只小猫

最新推荐文章于 2025-05-12 10:58:29 发布

晚安是一只小猫

最新推荐文章于 2025-05-12 10:58:29 发布

阅读量8.7k

点赞数 49

文章标签：信息与通信 gpu算力服务器云计算网络

本文链接：https://blog.csdn.net/qq_45257377/article/details/139502483

版权

⭐免责说明⭐文章内容用来个人学习笔记与分享交流使用，来源网络各个角落的知识积累，如有部分理解雷同，纯属巧合

前言

一、算力的单位-FLOPS

二、计算精度（FP32，FP64......)

前言

算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力，主要通过算力基础设施向社会提供服务。

小到我们每一次手机拍照、网络购物，大到国家层面的太空探索、医药研发，都离不开算力的支持。当前，算力已经成为和水、电、燃气一样的基础资源，渗透进各行各业中，日益成为数字经济核心生产力。据中国信通院测算，算力每投入1元，将带动3—4元的经济产出。

有很多重要文件和会议，从国家和社会的各个层面对我国算力进行了相关解析：

2023年中国算力大会，工信部领导介绍我国数据中心机架数超过760万标准机架，算力总规模达每秒1.97万亿亿次浮点运算（197EFLOPS）....

IDC此前发布的数据显示，2022年我国智能算力规模达到268百亿亿次/秒，超过通用算力的规模；预计未来5年，我国智能算力规模的年复合增长率将达52.3%。

据《中国算力发展指数白皮书（2023年）》统计显示，在2016—2022年期间，我国算力规模平均每年增长46%，数字经济增长14.2%，GDP增长4.7%。未来，算力技术逐步成熟、布局逐步完善、应用逐步深入，算力对数字经济的驱动作用将进一步放大。

那么，有小伙伴们就有疑问了，算力到底什么概念呢，怎么近年来突然爆火呢？本篇博文从笔者的角度学习算力的基础概念。

一、算力的单位-FLOPS

算力是指计算机设备或计算/数据中心处理信息的能力，是计算机硬件和软件配合共同执行某种计算需求的能力。其单位在不同的应用场景中有所不同，但主要是为了衡量计算设备的处理速度和计算能力的强弱。

FLOPS(全称Floating-Point Operations Per Second)，意为每秒浮点运算次数，是算力的一种常见衡量单位，表示每秒能够进行的浮点运算次数。FLOPS这个术语最早出现在上世纪60年代末期，当时美国国家标准局（NBS）开始研究计算机系统的性能评估方法。

算力单位中，FLOPS可以有多种表示，如TFLOPS（百万亿次浮点运算每秒）和EFLOPS（亿亿次浮点运算每秒）。

每个指标前，我们知道主要区别在于“T”、“P”、“E”......不一样，实际上，这是一种单位。不知道这里引入存储单位的换算概念合适不合适，例如：

1E=1024P

1P=1024T

1T=1024G

1G=1024M

1M=1024K

1K=1024B

那么也就是说，每个量级相差的就是10的3次方。

所以说，常说的1个TFLOPS等于每秒一万亿（=10^12）次的浮点运算。

一个MFLOPS（megaFLOPS）等于每秒一佰万（=10^6）次的浮点运算；

一个GFLOPS（gigaFLOPS）等于每秒十亿（=10^9）次的浮点运算；

一个TFLOPS（teraFLOPS）等于每秒一万亿/一兆（=10^12）次的浮点运算；

一个PFLOPS（petaFLOPS）等于每秒一千万亿/一千兆（=10^15）次的浮点运算；

一个EFLOPS（exaFLOPS）等于每秒一百亿亿次/一百京（=10^18）次的浮点运算。

我们常见的单位，是TFLOPS、PFLOPS、EFLOPS，都是3次方的转化。

二、计算精度（FP32，FP64......)

在很多场景下，我们搜索一张GPU卡的算力时，可能会出现多种结果，例如一张H100的卡，百度搜素出来的结果：

而英伟达官网给出的结果是：

可以看到，各种参数五花八门，这里我们先关注上面出现的FP64、FP32、FP16、FP8、INT8是用来做什么的？

FP代表的是浮点运算数据格式，包括双精度（FP64）、单精度（FP32）、半精度（FP16）以及FP8等，INT代表整数格式，包括INT8、INT4等。总的来说，后面的数字位数越高，意味着精度越高，能够支持的运算复杂程度就越高，适配的应用场景也就越广：

双精度（Fp64）：浮点数使用64位表示，提供更高的精度和动态范围。通常在需要更高精度计算的科学和工程应用中使用，相对于单精度，需要更多的存储空间和计算资源。

单精度（Fp32）：浮点数使用32位表示，具有较高的精度和动态范围，适用于大多数科学计算和通用计算任务。通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32，应用上往往有AI大模型、自动驾驶、智慧城市等需要学习大量数据、训练复杂的深度学习模型。

半精度（FP16）：浮点数使用16位表示，相对于FP32提供了较低的精度，但可以减少存储空间和计算开销。按照理论来说可以跑机器学习这些任务，但是FP16会出现精度溢出和舍入误差，所以很多应用都是使用混合精度计算的也就是FP16+FP32模式，简单来说FP16其实在图像处理有更大优势点。

固定点数（INT8）：固定点数使用固定的小数点位置来表示数值，可以使用定点数算法进行计算。INT8与FP16、FP32的优势在于计算的数据量相对小，计算速度可以更快，并且能通过减少计算和内存带宽需求来提高能耗。

三、GPU显卡型号

那同样是H100，SXM、PCIe、NVL有什么区别呢？【来自文心一言】

SXM版本：
设计目的：SXM（Socketed Multi-Chip Module）是英伟达专为实现GPU间超高速互连而研发的一种高带宽插座式解决方案。这种设计使得GPU能够无缝对接于英伟达自家的DGX和HGX系统。
性能：SXM版本通过主板上集成的NVSwitch实现NVLink的连接，不需要通过主板上的PCIe进行通信，能够支持8块GPU卡的互联互通，实现了GPU之间的高带宽。其显存带宽和性能拓展方面相比PCIe版本更为出色。
应用场景：主要应用在英伟达的高端GPU服务器中，如DGX系统板，该系统板支持4张GPU-SXM或8张GPU-SXM。
PCIe版本：
设计目的：PCIe版本面向传统的CPU服务器架构，GPU通过PCIe switch与CPU相连，每两个GPU则通过NVLink Bridge连接。
性能：与SXM版本相比，GPU间的通信效率较低。但PCIe版本可以通过NVlink桥接器来实现GPU和CPU之间的通信，但只能实现2块GPU卡之间的通信。
应用场景：适用于传统的CPU服务器架构，提供较为灵活的配置选项。
NVL版本：
特点：英伟达针对AI市场推出的双GPU产品H100 NVL，在顶部配备了3个NVLink连接器，使用两个相邻的PCIe显卡插槽。
性能：相比H100 PCIe版本，H100 NVL在内存带宽和性能方面都有显著提升。它最高可以提供188GB HBM3显存，单卡显存容量94GB，每个GPU的显存带宽为3.9 TB/s，总和为7.8 TB/s。
应用场景：针对大型语言模型(LLM)等需要处理庞大数据流的AI应用，H100 NVL提供了更高的显存和带宽支持，以满足这些应用的性能需求。

笔者在咨询、规划或设计过程中，常见的是PCLe版本，适用于传统CPU服务器架构。

那这个核心是什么意思呢？

Tensor Core（核心）是NVIDIA GPU中专门为深度学习和AI相关计算设计的硬件加速单元。虽然它也支持FP64精度，但其主要设计目的是通过混合精度技术（如使用FP16或BF16进行乘法操作，然后将结果累加到FP32或FP64中）来加速深度学习模型的训练和推理过程。

两者都表示FP64精度下的计算性能，但Tensor核心通过其专用的硬件设计和混合精度技术，能够在保持FP64精度的同时实现更高的计算性能。

以英伟达Nvidia H200 GPU为例，其直接运行FP64格式浮点数的理论峰值性能达到每秒34万亿次浮点计算（TFLOPS），而当使用FP64格式与Tensor Core一起工作时，其运行时的理论峰值性能可以达到每秒67万亿次浮点计算（TFLOPS）。这表明Tensor核心在FP64精度下能够实现比传统FP64计算更高的性能。

四、直观概念

现有相关算力规模大多都是基于单精度浮点算力次数（FP32）来进行公布的，或者是有备注说明的，例如：

2023年10月，《算力基础设施高质量发展行动计划》发布，它是为加强计算、网络、存储和应用协同创新，推进算力基础设施高质量发展，充分发挥算力对数字经济的驱动作用，制定的行动计划。主要目标，计算力方面，算力规模超过300EFLOPS，智能算力占比达到35%，东西部算力平衡协调发展。

6月6日，广东省人民政府发布《关于人工智能赋能千行百业的若干措施》（下称《措施》）。在算力方面，目标到2025年，全省算力规模超过40EFLOPS（每秒浮点运算次数），人工智能核心产业规模超过3000亿元；到2027年，全省算力规模超过60EFLOPS，全国领先的算法体系和算力网络体系基本形成。

上海市经济信息化委日前印发《上海市推进算力资源统一调度指导意见》，目标到2023年底，依托本市人工智能公共算力服务平台，接入并调度4个以上算力基础设施，可调度智能算力达到1,000 PFLOPS（FP16）以上；到2025年，市人工智能公共算力服务平台能级跃升，完善算力交易机制，实现跨地域算力智能调度，通过高效算力调度，推动算力供需均衡，带动产业发展作用显著增强。本市数据中心算力超过18000 PFLOPS（FP32）

对于国家说的300EFLOPS有什么概念呢，从抽象我们来具象一下。