大模型推理速度翻倍的秘密：硬件选型与GPU优化全攻略

最新推荐文章于 2025-04-27 11:32:17 发布

科技互联人生

最新推荐文章于 2025-04-27 11:32:17 发布

阅读量1.8k

点赞数 18

分类专栏：科技数码人工智能文章标签： AIGC 人工智能

本文链接：https://blog.csdn.net/njbaige/article/details/139310936

版权

科技同时被 3 个专栏收录

274 篇文章

订阅专栏

数码

274 篇文章

订阅专栏

人工智能

274 篇文章

订阅专栏

   

部署大模型应用（如训练、微调、RAG）时，前期硬件选型至关重要。即使已有方案，缺乏实践经验可能导致硬件评估困难。本文提供硬件评估与选型的专业参照，助您高效部署，精准上报。

初识 GPU

硬件选型

在模型训练与推理的硬件选型中，NVIDIA以其GPU领域的卓越实力成为首选。作为全球知名的GPU公司（1993年创立），其AI芯片领域的垄断性优势使创始人黄仁勋被誉为“黄教主”，引领行业前行。

什么是 GPU

Graphical Processing Units (GPUs)

GPU是强大电子芯片，专为沉浸式视频游戏、电影等视觉媒体设计，展现细腻逼真的2D/3D图形与动画，打造极致视觉体验。
凭借卓越的并行矩阵运算性能，GPU广泛应用于人工智能领域，涵盖机器视觉、NLP、语音识别及自动驾驶等系统，助力智能技术飞速发展。

CUDA 核心和 Tensor 核心

CUDA 核心

NVIDIA打造的并行计算平台与编程模型，实现GPU上的通用计算，功能强大，如同万能工匠，适应各种任务需求。
适合游戏和图形渲染、天气预测、电影特效等场景

案例1：视频渲染优化
电影制片公司打造3D视觉盛宴时，CUDA核心成为渲染关键。它高效处理光线追踪、纹理、阴影等细节，确保画面逼真。当光从源反射至物体再至摄像机，CUDA核心精准计算光线路径，赋予画面真实美感。计算力强大，满足电影制作的极致追求。

Tensor 核心

中文叫：张量核心
专门设计用于深度学习中的矩阵运算，加速深度学习算法中的关键计算过程
适合语音助手、人脸识别等场景

案例2：面部识别技术革新，安全系统、智能手机和众多应用纷纷采用。深度学习模型精准捕捉面部特征，Tensor核心成为核心动力，飞速处理神经网络中的矩阵运算，确保面部识别高效准确，引领科技前沿。

AI 领域常用 GPU

AI 常用 GPU 价格排序

NVIDIA显卡价格排序表出炉，由低至高一目了然。更多排名详情，请查阅《NVIDIA显卡排行榜》章节。

有些在京东就能买到
美国商务部严格限制GPU对华出口，算力上限4800 TOPS、带宽上限600 GB/s，致使顶级H100和A100遭禁。为应对市场，黄教主迅速推出专为中国市场打造的A800和H800，以满足需求。
参考：
- 英伟达 A100 和 H100 已被禁止向中国供货
- 50 亿美元，算力芯片迎来狂欢，腾讯字节抢购英伟达 A800 订单

H100 与 A100

H100 比 A100 快多少？

16-bit 推理快约 3.5 倍，16-bit 训练快约 2.3 倍。

参考资料

深度学习中如何选择GPU？Tim Dettmers详解2023年最佳深度学习GPU，助你高效构建AI模型，不容错过！

根据场景选择GPU

以下是显卡4090上chatglm与chatglm2模型的Fine tuning实验数据概览，专业精准，助您轻松把握模型优化成效。

llm-utils 上一些选型的建议

Falcon 是目前为止 huggingface 上排行榜第一的模型

根据不同的使用情境，以下是使用的建议GPU：

模型

显卡要求

推荐显卡

Running Falcon-40B

运行 Falcon-40B 所需的显卡应该有 85GB 到 100GB 或更多的显存

See Falcon-40B table

Running MPT-30B

当运行 MPT-30B 时，显卡应该具有80GB的显存

See MPT-30B table

Training LLaMA (65B)

对于训练 LLaMA (65B)，使用 8000 台 Nvidia A100 显卡。

Very large H100 cluster

Training Falcon (40B)

训练 Falcon (40B) 需要 384 台具有 40GB 显存的 A100 显卡。

Large H100 cluster

Fine tuning an LLM (large scale)

大规模微调 LLM 需要 64 台 40GB 显存的 A100 显卡

H100 cluster

Fine tuning an LLM (small scale)

小规模微调 LLM 则需要 4 台 80GB 显存的 A100 显卡。

Multi-H100 instance

不同情况推荐

划重点：

GeForce RTX 4090等消费级GPU，轻松应对本地个人研发项目的中等规模需求，性能卓越，值得信赖。
数据规模小时，可考虑预算内的 A10 或 T4 型号。
追求性价比？用4090显卡搭建服务器或选择AutoDL等第三方4090服务，高效又经济，满足您的专业需求。

1、大模型内存选择

大模型训练依赖高性能硬件确保效率与速度。推荐采用高速ECC或DDR5内存。当前主流基于GLM、LLaMA等大模型训练，国内优选A800/H800 x 8 GPU配置，内存同步升级至512GB，以实现高效训练。选择专业配置，加速大模型训练进程。

2、大模型所需磁盘

大模型训练离不开大容量、高速的存储支持，以确保数据快速读取和处理。推荐采用SSD或NVMe固态硬盘，其容量一般介于4T至8T之间，为您的模型训练提供坚实后盾。

3、推荐配置参考

GPU算力平台：大模型训练、自动驾驶、深度学习解决方案。

A100/A800大模型训练配置分享
- 平台：SYS-420GP-TNAR（4U）
- CPU：2*8358（32核心，铂金版，2.6GHz 超频 3.4GHz）
- GPU：NVIDIA HGX A100/A800（80G SXM）
- 内存：32*64GB DDR4
H100/H800大模型训练配置分享
- 平台：SYS-821GE-TNHR（8U）
- CPU：2*8468（48核心，铂金版，2.1GHz 超频 3.8GHz）
- GPU：NVIDIA HGX H100/H800（80G SXM5）
- 内存：32*64GB DDR5