深度分析:智算中心建设 - GPU选型

大模型加持AI技术赛道革新发展,“大模型热”愈演愈烈。2024年2月15日,OpenAI首个视频生成模型Sora发布,完美继承DALL·E 3的画质和遵循指令能力,能生成长达1分钟全尺寸的高清视频。2024年5月14日,OpenAI发布GPT-4o,可以综合利用语音、文本和视觉信息进行推理,并生成文本、音频和图像的任意组合输出。国内厂商也持续更新迭代技术底座及模型能力,Kimi的爆火推动国内大模型竞争,电信星辰TeleChat开源、智谱GLM-4、讯飞星火3.5陆续升级发布。AI发展已经带动GPU行业高速发展,整个数据科学/AI计算几乎全部在GPU上完成。

本文智算中心GPU选型从计算能力应用场景能耗消耗市场生态四个方面分析,为智算中心建设提供不同视角

01计算能力

AI应用场景受GPU算力、GPU显存、显存带宽、GPU互联带宽等主要因素影响。大模型通常使用混合精度进行计算,其中主要参数为FP16和FP32,同时部分计算过程通过减少精度采用INT8加速计算过程;GPU显存制约加载模型及数据量的大小,显存越大可加载的模型数据量越多,显存带宽则制约显存的读写速率;GPU互联不同GPU类型采用不同的互联技术,例如一台8卡NV H100节点内采用NVLink互联,带宽900GB/s, 华为昇腾910B采用HCCS互联,带宽达392GB/s,带宽越高GPU之间模型计算效率越高。

图片

02应用场景

不同类型GPU卡提供不同的算力以及显存、带宽,所适用的AI应用场景也不一样。目前国内主要大模型玩家仍然在卷大模型,参数量和数据集越来越大,所需算力越高,场景化大模型将快速迭代,伴随着AI应用规模落地,推理算力增长空间将高于训练。

对于渲染类的应用场景,部分卡由于提供RT core渲染计算能力,所以能更好的的支持图形、视频等渲染场景,现在比较流行的文生图、图生图、文生视频的AI软件Midjourney/Stable Diffusion都比较适合运行在这种类型卡上。

GPU类型

适用场景

A100/A800

训练、微调和推理场景

H100/H800

训练、微调和推理场景

RTX4090

微调和推理、渲染场景

L40S

训练、微调和推理、渲染场景

H20

训练、微调和推理场景

L20

微调和推理场景

昇腾910B

训练、微调和推理场景

天垓150

训练、微调和推理场景

智铠100

微调和推理场景

曦云C500

训练、微调和推理场景

MTT S4000

微调和推理场景

云燧T21

训练、微调和推理场景

MLU370-X8

微调和推理场景

03能耗消耗

相对于传统的CPU数据中心,智算数据中心需要提供更多的电力来支撑GPU的AI计算,而GPU是耗电大户,也是智算中心运营是否能取得更好收益的关键因素。通常国内发达地区数据中心机房的租赁费用在800-1100元/KW/月,而西部地区租赁费用相对较低,500-800元/KW/月。选择合适的GPU卡,以及更低价的电费将影响智算中心整体收益。

GPU类型

单卡能耗(W)

A100/A800

400

H100/H800

700

RTX4090

450

L40S

350

H20

400

L20

275

昇腾910B

350

天垓150

350

智铠100

150

曦云C500

350

MTT S4000

450

云燧T21

400

MLU370-X8

250

04市场生态

基于业界主流、开源、开放的软件生态建设智算中心,是智算中心能够满足前沿AI计算需求、提升AI创新和生产效率、丰富行业AI应用、促进AI产业快速发展的主要前提。

提及生态,GPU生态的奠基者CUDA是无法绕过的。如今整个科学计算、AI的软件生态大多构建在CUDA的基础之上。CUDA的两大生态护城河:软件库覆盖率、AI框架支持度。CUDA是软件生态的标杆,从软件库的覆盖面、AI框架和算子库的支持程度两方面来讲,都是目前最完善的。CUDA所包含的生态组分众多,包含编程语言和API、开发库、分析和调试工具、数据中心和集群管理工具,以及GPU硬件等多个大类。CUDA软件栈为深度学习的应用开发和计算加速提供了丰富的底层支撑,如张量和卷积计算加速、芯片互联通信加速、数据预处理加速、模型低精度推理加速等。CUDA生态由英伟达主导,国产GPU厂家则各自采用不同架构,通过兼容CUDA或自有生态来满足前沿AI计算需求。例如采用GPGPU架构的天数智芯、沐曦等厂家,采用NPU架构的华为昇腾系列。

选择合适的GPU型号是智算中心成功建设和运营的关键因素,本文从计算能力、应用场景、能耗消耗、市场生态四个方面介绍了不同类型GPU卡的相关特点,为智算中心建设提供参考。

图片

相关阅读:

九州未来受邀参加“浪潮网络2024新品发布暨合作伙伴大会”,分享智算中心建设和运营成果及经验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值