算力与GPU卡入门解析|晚安是一只小猫

⭐免责说明⭐文章内容用来个人学习笔记与分享交流使用,来源网络各个角落的知识积累,如有部分理解雷同,纯属巧合

目录

前言

一、算力的单位-FLOPS

二、计算精度(FP32,FP64......)

三、GPU显卡型号

四、直观概念

4.1 H100和H800对比

总结


前言

算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力基础设施向社会提供服务。

小到我们每一次手机拍照、网络购物,大到国家层面的太空探索、医药研发,都离不开算力的支持。当前,算力已经成为和水、电、燃气一样的基础资源,渗透进各行各业中,日益成为数字经济核心生产力。据中国信通院测算,算力每投入1元,将带动3—4元的经济产出。

有很多重要文件和会议,从国家和社会的各个层面对我国算力进行了相关解析:

2023年中国算力大会,工信部领导介绍我国数据中心机架数超过760万标准机架,算力总规模达每秒1.97万亿亿次浮点运算(197EFLOPS)....

IDC此前发布的数据显示,2022年我国智能算力规模达到268百亿亿次/秒,超过通用算力的规模;预计未来5年,我国智能算力规模的年复合增长率将达52.3%。

据《中国算力发展指数白皮书(2023年)》统计显示,在2016—2022年期间,我国算力规模平均每年增长46%,数字经济增长14.2%,GDP增长4.7%。未来,算力技术逐步成熟、布局逐步完善、应用逐步深入,算力对数字经济的驱动作用将进一步放大。

那么,有小伙伴们就有疑问了,算力到底什么概念呢,怎么近年来突然爆火呢?本篇博文从笔者的角度学习算力的基础概念。

一、算力的单位-FLOPS

算力是指计算机设备或计算/数据中心处理信息的能力,是计算机硬件和软件配合共同执行某种计算需求的能力。其单位在不同的应用场景中有所不同,但主要是为了衡量计算设备的处理速度和计算能力的强弱。

FLOPS(全称Floating-Point Operations Per Second),意为每秒浮点运算次数,是算力的一种常见衡量单位,表示每秒能够进行的浮点运算次数。FLOPS这个术语最早出现在上世纪60年代末期,当时美国国家标准局(NBS)开始研究计算机系统的性能评估方法。

算力单位中,FLOPS可以有多种表示,如TFLOPS(百万亿次浮点运算每秒)和EFLOPS(亿亿次浮点运算每秒)。

每个指标前,我们知道主要区别在于“T”、“P”、“E”......不一样,实际上,这是一种单位。不知道这里引入存储单位的换算概念合适不合适,例如:

1E=1024P

1P=1024T

1T=1024G

1G=1024M

1M=1024K

1K=1024B

那么也就是说,每个量级相差的就是10的3次方。

所以说,常说的1个TFLOPS等于每秒一万亿(=10^12)次的浮点运算。

一个MFLOPS(megaFLOPS)等于每秒一佰万(=10^6)次的浮点运算;

一个GFLOPS(gigaFLOPS)等于每秒十亿(=10^9)次的浮点运算;

一个TFLOPS(teraFLOPS)等于每秒一万亿/一兆(=10^12)次的浮点运算;

一个PFLOPS(petaFLOPS)等于每秒一千万亿/一千兆(=10^15)次的浮点运算;

一个EFLOPS(exaFLOPS)等于每秒一百亿亿次/一百京(=10^18)次的浮点运算。

我们常见的单位,是TFLOPS、PFLOPSEFLOPS,都是3次方的转化。

二、计算精度(FP32,FP64......)

在很多场景下,我们搜索一张GPU卡的算力时,可能会出现多种结果,例如一张H100的卡,百度搜素出来的结果:

 而英伟达官网给出的结果是:

可以看到,各种参数五花八门,这里我们先关注上面出现的FP64、FP32、FP16、FP8、INT8是用来做什么的?

FP代表的是浮点运算数据格式,包括双精度(FP64)单精度(FP32)半精度(FP16)以及FP8等,INT代表整数格式,包括INT8、INT4等。总的来说,后面的数字位数越高,意味着精度越高,能够支持的运算复杂程度就越高,适配的应用场景也就越广:

双精度(Fp64):浮点数使用64位表示,提供更高的精度和动态范围。通常在需要更高精度计算的科学和工程应用中使用,相对于单精度,需要更多的存储空间和计算资源。

单精度(Fp32):浮点数使用32位表示,具有较高的精度和动态范围,适用于大多数科学计算和通用计算任务。通常我们训练神经网络模型的时候默认使用的数据类型为单精度FP32,应用上往往有AI大模型、自动驾驶、智慧城市等需要学习大量数据、训练复杂的深度学习模型。

半精度(FP16):浮点数使用16位表示,相对于FP32提供了较低的精度,但可以减少存储空间和计算开销。按照理论来说可以跑机器学习这些任务,但是FP16会出现精度溢出和舍入误差,所以很多应用都是使用混合精度计算的也就是FP16+FP32模式,简单来说FP16其实在图像处理有更大优势点。

固定点数(INT8):固定点数使用固定的小数点位置来表示数值,可以使用定点数算法进行计算。INT8与FP16、FP32的优势在于计算的数据量相对小,计算速度可以更快,并且能通过减少计算和内存带宽需求来提高能耗。

三、GPU显卡型号

那同样是H100,SXM、PCIe、NVL有什么区别呢?【来自文心一言】

  1. SXM版本
    • 设计目的:SXM(Socketed Multi-Chip Module)是英伟达专为实现GPU间超高速互连而研发的一种高带宽插座式解决方案。这种设计使得GPU能够无缝对接于英伟达自家的DGX和HGX系统。
    • 性能:SXM版本通过主板上集成的NVSwitch实现NVLink的连接,不需要通过主板上的PCIe进行通信,能够支持8块GPU卡的互联互通,实现了GPU之间的高带宽。其显存带宽和性能拓展方面相比PCIe版本更为出色。
    • 应用场景:主要应用在英伟达的高端GPU服务器中,如DGX系统板,该系统板支持4张GPU-SXM或8张GPU-SXM。
  2. PCIe版本
    • 设计目的:PCIe版本面向传统的CPU服务器架构,GPU通过PCIe switch与CPU相连,每两个GPU则通过NVLink Bridge连接。
    • 性能:与SXM版本相比,GPU间的通信效率较低。但PCIe版本可以通过NVlink桥接器来实现GPU和CPU之间的通信,但只能实现2块GPU卡之间的通信。
    • 应用场景:适用于传统的CPU服务器架构,提供较为灵活的配置选项。
  3. NVL版本
    • 特点:英伟达针对AI市场推出的双GPU产品H100 NVL,在顶部配备了3个NVLink连接器,使用两个相邻的PCIe显卡插槽。
    • 性能:相比H100 PCIe版本,H100 NVL在内存带宽和性能方面都有显著提升。它最高可以提供188GB HBM3显存,单卡显存容量94GB,每个GPU的显存带宽为3.9 TB/s,总和为7.8 TB/s。
    • 应用场景:针对大型语言模型(LLM)等需要处理庞大数据流的AI应用,H100 NVL提供了更高的显存和带宽支持,以满足这些应用的性能需求。

笔者在咨询、规划或设计过程中,常见的是PCLe版本,适用于传统CPU服务器架构。

那这个核心是什么意思呢?

Tensor Core(核心)是NVIDIA GPU中专门为深度学习和AI相关计算设计的硬件加速单元。虽然它也支持FP64精度,但其主要设计目的是通过混合精度技术(如使用FP16或BF16进行乘法操作,然后将结果累加到FP32或FP64中)来加速深度学习模型的训练和推理过程。

两者都表示FP64精度下的计算性能,但Tensor核心通过其专用的硬件设计和混合精度技术,能够在保持FP64精度的同时实现更高的计算性能。

以英伟达Nvidia H200 GPU为例,其直接运行FP64格式浮点数的理论峰值性能达到每秒34万亿次浮点计算(TFLOPS),而当使用FP64格式与Tensor Core一起工作时,其运行时的理论峰值性能可以达到每秒67万亿次浮点计算(TFLOPS)。这表明Tensor核心在FP64精度下能够实现比传统FP64计算更高的性能。

四、直观概念

现有相关算力规模大多都是基于单精度浮点算力次数(FP32)来进行公布的,或者是有备注说明的,例如:

2023年10月,《算力基础设施高质量发展行动计划》发布,它是为加强计算、网络、存储和应用协同创新,推进算力基础设施高质量发展,充分发挥算力对数字经济的驱动作用,制定的行动计划。主要目标,计算力方面,算力规模超过300EFLOPS智能算力占比达到35%,东西部算力平衡协调发展。

6月6日,广东省人民政府发布《关于人工智能赋能千行百业的若干措施》(下称《措施》)。在算力方面,目标到2025年,全省算力规模超过40EFLOPS(每秒浮点运算次数),人工智能核心产业规模超过3000亿元;到2027年,全省算力规模超过60EFLOPS,全国领先的算法体系和算力网络体系基本形成。

上海市经济信息化委日前印发 《上海市推进算力资源统一调度指导意见》,目标到2023年底,依托本市人工智能公共算力服务平台,接入并调度4个以上算力基础设施,可调度智能算力达到1,000 PFLOPS(FP16)以上;到2025年,市人工智能公共算力服务平台能级跃升,完善算力交易机制,实现跨地域算力智能调度,通过高效算力调度,推动算力供需均衡,带动产业发展作用显著增强。本市数据中心算力超过18000 PFLOPS(FP32)

对于国家说的300EFLOPS有什么概念呢,从抽象我们来具象一下。

从英伟达官网上可以查到,A10推理卡的师31.2兆次浮点运算,而1TFLOPS=1兆次浮点运算。

那么A10=31.2TFLOPS(FP32)。

那么一台GPU服务器一般会装6块卡,那么相当于算力达到187.2TFLOPS(FP32);

那么一万台A10GPU服务器(6块)达到的算力=1872000TFLOPS(FP32)=1872PFLOPS(FP32)=1.872EFLOPS(FP32)

A10卡主要用作推理任务进行使用,算力不高,在大模型火热的当下,A100、H100、H800才是主力。

据估计,OpenAI训练GPT-4模型,很有可能应用了1万到2万张英伟达A100。按照马斯克的说法,GPT-5的训练可能需要3万到5万张H100,可见随着大模型的迭代发展,训练所需算力也呈爆发性增长。

4.1 H100和H800对比

从数字上来看,800比100要大,感觉上是肯定800系列比100系列要强的。但是,我们看到,在FP32下,H00和H800的单精度算力都是67TFLOPS。

关于H800的来龙去脉,后续相信会有机会再和大家进行专题讨论。


总结

随着AIGC应用的普及,智能算力需求将显著增长。根据《中国算力发展指数白皮书》的数据,智能算力在总算力中的占比将不断提高,成为算力需求增长的主要动力。

《2024 AIGC应用层十大趋势白皮书》,预测到2024年全球将涌现出超过5亿个新应用,这相当于过去40年间出现的应用数总和。随着AIGC的发展,智能化应用将呈现爆发式增长,这将极大地推动算力需求的增长。

只能说,算力火爆~


每日金句:把行动交给现在,把结果交给时间。那些你暗自努力的时光,终会照亮你前行的路。只要一直在追光的路上,你的人生终会光芒万丈-摘自人民日报

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值