本文的 原始 文章
尼恩:LLM大模型学习圣经PDF的起源
在40岁老架构师 尼恩的读者交流群(50+)中,经常性的指导小伙伴们改造简历。
经过尼恩的改造之后,很多小伙伴拿到了一线互联网企业如得物、阿里、滴滴、极兔、有赞、希音、百度、网易、美团的面试机会,拿到了大厂机会。
然而,其中一个成功案例,是一个9年经验 网易的小伙伴,当时拿到了一个年薪近80W的大模型架构offer,逆涨50%,那是在去年2023年的 5月。
不到1年,小伙伴也在团队站稳了脚跟,成为了名副其实的大模型 应用 架构师。接下来,尼恩架构团队,通过 梳理一个《LLM大模型学习圣经》 帮助更多的人做LLM架构,拿到年薪100W, 这个内容体系包括下面的内容:
-
《LLM大模型学习圣经:从0到1精通RAG架构,基于LLM+RAG构建生产级企业知识库》
-
《LLM大模型学习圣经:从0到1吃透大模型的顶级架构》
-
《LLM 智能体 学习圣经:从0到1吃透 LLM 智能体 的架构 与实操》
-
《LLM 智能体 学习圣经:从0到1吃透 LLM 智能体 的 中台 架构 与实操》
-
《Spring AI 学习圣经 和配套视频 》
以上学习圣经 的 配套视频, 2025年 5月份之前发布。
A100、H100、A800、H800、H20的差异
英伟达系列显卡大解析B100、H200、L40S、A100、A800、H100、H800、V100如何选择?
接下来,老架构师尼恩给大家做一个 升入浅出的系统化介绍。
一、 NVIDIA GPU架构
1、Volta 架构
Volta 架构是 NVIDIA GPU 的第六代架构。
Volta,NVIDIA GPU的第六代传奇,2017年荣耀登场。
Volta 架构 专注于深度学习和人工智能应用,首次引入了Tensor Core,为AI计算提供了前所未有的强大动力。
Tensor Core(张量计算核心)是由 NVIDIA 研发的 新型处理 核心 ,Tensor Core(张量计算核心) 可实现混合精度计算,并能根据精度的降低动态调整 算力 ,在保持准确性的同时提高 吞吐量 。
代表产品:V100、TiTan。
Volta 架构 凭借其卓越的深度学习性能和能效比,成为了当时人工智能领域的佼佼者,为后续的AI发展奠定了坚实基础。
2、Turing 架构
Turing 架构是 NVIDIA GPU 的第七代架构,发布于 2018 年。
Turing,NVIDIA GPU的第七代里程碑,2018年惊艳亮相。
Turing 架构 首次引入了实时光线追踪(RTX)技术 和 深度学习超采样(DLSS)等重要功能。
其中, Turing 架构引入的实时光线追踪(RTX) , 让游戏画面更加逼真动人。
同时,深度学习超采样(DLSS)技术的加入,也极大地提升了游戏性能。
Turing 架构 代表产品是T4、2080TI、RTX5000。
T4、2080TI、RTX5000等明星产品,正是Turing架构在图形处理和深度学习领域卓越表现的生动写照。
3、Ampere 架构
代表产品是A100、A800、A30系列。
Ampere,NVIDIA GPU的第八代传奇,2020年横空出世。
Ampere 架构 凭借多个流多处理器(SM)、更大总线宽度和更多CUDA Core,实现了计算能力和能效的双重飞跃。
所以,Ampere 架构在计算能力、能效和深度学习性能方面都有重大提升。
Ampere 架构 引入了 第三代Tensor Core ,更是让深度学习计算性能突飞猛进。
Ampere 架构的 GPU 还具有更高的内存容量和带宽,适用于大规模的数据处理和机器学习任务。
Ampere 架构 有 A100、A800、A30系列等经典产品,凭借其卓越的内存容量和带宽,成为了大规模数据处理和机器学习任务的首选。
4、Hopper 架构
Hopper 架构是 NVIDIA GPU 的第九代架构,2022 年发布。
Hopper,NVIDIA GPU的第九代杰作,2022年荣耀发布。
Ampere架构 引入了 第三代Tensor Core ,而 Hopper 架构支持第四代Tensor Core.
Hopper 架构 采用 新型流式处理器,每个 SM 能力更强。
每个SM性能飙升,为计算能力、深度学习加速和图形功能带来革命性提升。
Hopper 架构在计算能力、深度学习加速和图形功能方面带来新的创新和改进。
Hopper架构 代表产品是H100、H800。
H100、H800等明星产品,正是Hopper架构强大实力的最佳证明,它们正引领着AI和高性能计算的新潮流。
5、Blackwell 架构
Blackwell,NVIDIA最新的GPU架构,于2024年3月震撼登场。
同时,Blackwell 架构 还前瞻性地支持PCIe 5.0,尽管具体覆盖型号(如RTX 5090)尚需观察,但这无疑预示着消费级GPU新时代的来临。
Blackwell 架构 的 视频编解码能力也大幅增强,轻松应对 4:2:2视频流,为多媒体创作注入新活力。
二 扩展知识: 大白话 介绍 CUDA核心 和 Tensor核心
上的架构中,提到了两个核心:
-
CUDA Core (标量 计算 核心)
-
Tensor Core(张量计算核心)
1 设计目标不同
- CUDA核心:
像全能程序员,啥活儿都能干,但效率有上限
负责所有通用计算任务(比如加减乘除、逻辑判断、图像渲染),从科学模拟到游戏画面都要靠它,但处理AI的大规模矩阵乘法时速度慢、耗电高。
- Tensor核心:
像数学竞赛冠军,专攻矩阵乘法
针对深度学习中**矩阵乘加运算(GEMM)**硬件级优化,单次操作能处理4x4矩阵块,速度比CUDA核心快5-20倍,但只能做特定类型的计算。
2 工作方式不同
对比维度 | CUDA核心 | Tensor核心 |
---|---|---|
计算粒度 | 单个数值计算(标量) | 矩阵块计算(例如4x4矩阵并行处理) |
混合精度支持 | 需手动切换精度(如FP32转FP16) | 自动混合精度(FP16输入+FP32累加防溢出) |
指令集复杂度 | 支持全功能指令集(浮点、整数、分支等) | 仅支持矩阵乘加(GEMM)和卷积类操作 |
举个栗子:计算A×B=C(矩阵乘法)
-
CUDA核心:逐个元素计算(需要n³次操作)
-
Tensor核心:把A和B拆成4x4小块,整块并行计算(次数减少到n³/16)
**3 算力性能对比(以A100为例)**
核心类型 | FP32算力 | FP16算力 | Tensor专用算力 |
---|---|---|---|
CUDA核心 | 19.5 TFLOPS | 78 TFLOPS | 不支持 |
Tensor核心 | - | 312 TFLOPS | 624 TFLOPS (TF32) |
关键结论:
算力差距:Tensor核心的FP16算力是CUDA核心的4倍
能耗差距:完成相同矩阵计算,CUDA核心耗电是Tensor核心的3倍以上
4 使用场景差异
必须用CUDA核心的场景:
✅ 非矩阵类计算(如数据排序、条件判断)
✅ 需要高精度FP64的科学计算(天气模拟、核物理仿真)
✅ 图形渲染(光线追踪、纹理映射)
必须用Tensor核心的场景:
✅ 深度学习训练(ResNet、Transformer等模型)
✅ 推理加速(Stable Diffusion出图、ChatGPT生成文本)
✅ 视频超分辨率(4K视频实时修复)
三 A100、H100、A800、H800、H20 差异对比
1. A100:数据中心AI计算的基石
A100作为英伟达2020年发布的旗舰级数据中心GPU,基于Ampere架构。
A100 拥有6912个CUDA核心和432个Tensor核心,配备80GB HBM2e显存,带宽高达2.04 TB/s。
A100的 NVLink技术可连接多个GPU以扩展算力,非常适合深度学习训练、推理、科学计算及大规模数据分析。
A100以其出色的性能和稳定性,成为数据中心AI计算的标杆。
A100是英伟达2020年发布的旗舰级 数据中心 GPU,基于Ampere架构,主要特性包括:
- 架构:Ampere
- CUDA核心数:6912
- Tensor核心:432
- 显存:80GB HBM2e
- 带宽:2.04 TB/s
- NVLink支持:可连接多个GPU以扩展算力
- 应用场景:深度学习训练、推理、科学计算、大规模数据分析
A100可广泛应用于高性能计算(HPC)和深度学习任务,适用于需要大量计算资源的企业级用户。
2. H100:算力与效率的双重王者
H100作为A100的升级版,采用Hopper架构。
H100 的 CUDA核心数翻倍至14592,Tensor核心数也提升至456,显存和带宽保持不变。
H100特别优化了Transformer Engine,专为大型AI模型训练设计,如GPT系列。
H100 算力性能远超A100,且能效比更高,是AI训练、HPC及企业级AI推理的首选。
此外,H100的NVLink支持高带宽互联,进一步提升了多卡并行加速能力。
H100是A100的升级版,采用更先进的Hopper****架构,相比A100提升了数倍的计算性能,主要特性包括:
- 架构:Hopper
- CUDA 核心数 :14592
- Tensor 核心 :456
- 显存:80GB HBM2e(带宽高达3.35TB/s)
- NVLink支持 :支持高带宽互联
- Transformer Engine:专门优化AI大模型训练,如GPT-4
- 应用场景:大规模AI训练、HPC、企业级AI推理
H100特别适用于大型AI模型训练,比如Llama、GPT、Stable Diffusion等,可以大幅提升训练效率。H100 特别优化了 Transformer Engine,在 FP8/FP16 下可大幅提升 AI 训练和推理性能,适用于 LLM(大语言模型)如 GPT-4。
3. A800:中国市场专供的AI计算利器
A800是英伟达为中国市场推出的受限版GPU,基于Ampere架构。
A800 与A100相似, 但NVLink互联带宽受限。
A800仍具备强大的AI计算和推理能力,适用于中国云计算厂商及大型企业。
虽然性能略逊于A100,但在中国市场具有极高的性价比和适用性。
A800 & H800:中国市场专供版
4. H800:中国市场大规模AI计算的新选择
H800作为H100的中国市场专供版,同样采用Hopper架构。
CUDA核心数和Tensor核心数与H100相同,但带宽受限。
H800保留了H100的高计算能力,适用于大型AI训练任务。
在中国市场,H800成为替代H100的理想选择,满足了大规模AI计算的需求。
A800和H800是英伟达专为中国市场推出的受限版GPU,以符合美国的出口管制要求:
- A800:基于A100,限制了NVLink互联带宽,适合AI推理和训练
- H800:基于H100,限制了带宽,但仍然保留了较高的计算能力,适用于大型AI训练
这些GPU主要面向中国客户,如阿里云、腾讯云、百度云等云计算厂商,性能稍逊于A100和H100,但仍然具备极高的计算能力。
5. H20:新一代中国市场受限算力GPU
H20是英伟达为中国市场设计的新一代受限版GPU, 采用Hopper架构。
H20 显存预计超过96GB,带宽受限。
H20的计算性能介于A800和H800之间,适用于AI训练和推理任务。
虽然具体性能指标需等待正式发布后确认,但H20的推出预示着英伟达在中国市场AI计算领域的持续布局和深化。
痛:美国一律不准英伟达卖给中国市场
像H100、A100、H800、A800、H200、GB200等性能更强的AI芯片,美国一律不准英伟达卖给中国市场了。
H20 是目前英伟达能够在国内销售的唯一专用AI芯片。
形势严峻:Deepseek 火爆,阉割80%性能的英伟达H20,反被中国疯抢
2025年,Deepseek崛起,对算力的要求似乎没那么高了, DeepSeek 甚至是戳破英伟达算力泡沫的英雄。
最近由于市场对 DeepSeek的需求旺盛,腾讯、阿里巴巴和字节跳动等正在大幅增加对英伟达H20的采购。
H20是什么芯片?
H20 英伟达是 阉割了又阉割的 H100 芯片,以H100为基础,阉割掉了80%以上的性能,特供给中国的芯片。
近日,有媒体报道称,目前中国市场短缺英伟达的H20芯片,一些OEM企业称,H20的库存已接近耗尽,所以采取以利润优先的原则进行,优先考虑大客户。
而这种供不应求,又催生了价格倒挂现象,搭载H20的服务器价格上涨,能够搞到H20的厂商,销售价格也上涨了。
不仅性能上有阉割,在架构和软件适配上也有所调整,比如保留Hopper架构但禁用 关键的张量核心,比如通过固件锁 限制超频和集群扩展规模。
而H20虽然性能阉割了,它不够H100强,但不正好可以应用于DS这种不需要太高算力的大模型上么?低性能也能发挥出优势啊。
另外H20的最大优势是CUDA生态,再加上H20显存大,标准版配备了96GB的HBM3显存,而新推出的H20版本则将显存容量提升至141GB,这在部署AI时,非常有优势。
为何不用国产 AI芯片?
因为DS的火爆,地方政府、金融机构、车企,互联网企业等等,都争相部署私有化模型,而支撑这场AI落地的算力基础设施GPU需求呈指数级增长。
所以很多企业,宁愿使用阉割版的H20,也不愿意使用国产AI芯片,就是因为低性能也可以使用,且生态更强。
按照专业人士的说法,如果本身是用CUDA训练出来的模型,如果使用其它生态,不使用CUDA可能需要花费高达6个月的时间成本,还不一定可以切换成功,风险很大。
数据显示,2024年H20在华销售额已达120亿美元,预计2025年将突破200亿,可见目前在AI芯片领域,形势还是相当严峻的,
国产AI厂商们真的要加油,不仅仅是芯片本身,还有生态方面也是要加强的。
NVIDIA A100、H100、A800、H800、H20 市场价格分析
单卡市场价格概览
A100:
- 中国市场价格约 12万~15万元/卡,受供需波动影响显著 。
- 官方售价约 7万元/卡,但实际采购价因供应紧张常溢价至10万元以上 。
H100:
- 单卡价格约 26.4万元/卡(官方售价3.65万美元) ,高端渠道报价可达 30万元/卡 以上 。
- 整机配置(如8卡集群)价格超 220万元,适用于大规模AI训练场景 。
A800:
- 中国市场特供型号,单卡价格约 7万元/卡,性价比较A100更高 。
- 整机价格约 15万元(含多卡配置及配套硬件) 。
H800:
- 单卡价格约 6万元/卡,带宽性能受限但保留较强计算能力 。
- 整机价格约 230万元,适合合规要求严格的场景 。
H20:
- 新一代中国市场特供型号,价格尚未完全公开,预计单卡价格介于 A800与H800之间(约6万~8万元/卡) 。
- 8卡集群年成本超 100万元,支持70B参数模型推理优化 。
企业级AI应用环境规划方案
一、成本规划
环境 | 算力成本占比 | 核心策略 |
---|---|---|
开发环境 | 5%-10% | 消费级硬件+量化模型,年成本≤2万元 |
生产环境 | 60%-70% | 采购整机降低单价,IB网络提升资源利用率 |
预生产/测试环境 | 20%-25% | 复用闲置算力,采用按需付费云资源 |
一:开发环境设计(低成本快速迭代)
算力资源配置
- 硬件:采用消费级GPU(如NVIDIA 3090)或CPU服务器(如Mac mini M4芯片,支持64GB统一内存),单卡/单节点即可满足需求。
- 模型选型:优先使用QWen2-32B的量化版本(4-bit/8-bit),显存需求≤24GB,支持本地快速调试。
- 存储:配置1TB NVMe SSD加速模型加载,外接雷雳5接口SSD提升数据吞吐。
关键优化 - 量化工具链:集成MLX框架的
--metal_flash_attention
参数,提升GPU利用率。 - 资源隔离:通过Docker容器限制CPU/内存使用,避免开发环境资源抢占。
三:测试环境设计(性能验证与压力测试)
1 算力资源配置
- 硬件:部署2-4卡H20集群(单卡96GB显存),支持显存池化技术,适配32B模型全参数测试。
- 模型选型:使用DeepSeek-R1-32B原模型(非量化版),验证数学推理(AIME24)和代码生成(LiveCodeBench)性能。
- 网络:配置10Gbps以太网,模拟生产环境通信延迟。
2 关键优化
- 压力测试工具:集成vLLM框架,测试吞吐量(Token/s)和并发响应能力。
- 显存监控:使用Prometheus+Granafa实时监控显存占用率,识别模型内存泄漏。
四:预生产环境设计(生产仿真与合规校验)
1 算力资源配置
- 硬件:与生产环境同构的8卡H20服务器(显存池化达768GB),预留20%冗余算力。
- 模型选型:部署强化学习优化后的QWen2-32B(RLHF版本),启用内置答案验证器和代码执行服务器
- 存储:采用分布式Ceph存储,支持PB级数据缓存和快速回滚。
2 关键优化
- 灰度发布:通过Kubernetes实现模型版本AB测试,流量分配比例可动态调整。
- 安全合规:集成规则引擎校验输出内容,避免敏感信息泄露。
四、生产环境设计(高可用与弹性扩展)
1 算力资源配置
- 硬件:多台8卡H20服务器集群(400Gbps InfiniBand互联),单节点功耗≤3.2kW,支持N+1冗余。
- 模型选型:混合部署DeepSeek-R1(千亿参数MoE架构)和QWen2-32B,按业务场景动态路由请求。
- 网络:全IB网络架构,端到端延迟≤5μs,保障大规模并行训练稳定性。
2 关键优化
- 自动扩缩容:基于GPU利用率阈值(建议70%)触发弹性扩缩,节省30%闲置成本。
- 灾备设计:跨地域部署3副本模型服务,RTO(恢复时间目标)≤5分钟。
五、模型 匹配建议
1、 QWen2-32B适用场景:
- 开发/测试环境:单卡H20或消费级M4芯片 。
- 生产环境: QWen2-32B 与DeepSeek-R1组成混合服务,处理长文本(131k tokens)和逻辑推理任务。
2、 DeepSeek-R1适用场景:
- 预生产/生产环境:8卡H20集群,专用于千亿参数模型训练和高精度数学证明 。
注:方案设计需结合企业实际业务规模调整,建议优先验证测试环境性能再逐步扩展 。
生产/预生产 DeepSeek-R1 部署方案(2台8卡H20,年成本200万 )详细介绍
硬件配置
- 计算节点:2台服务器,每台配备8张H20 GPU(单卡显存96GB,支持显存池化技术) 。
- 互联网络:采用**400Gbps InfiniBand(IB)**,通过CX7单口卡实现多机通信,保障低延迟与高吞吐 。
- 辅助硬件:每台服务器配置至少64核CPU、2TB DDR5内存、8TB NVMe存储,满足大规模数据处理需求 。
性能优化
- 显存压缩技术:支持DeepSeek显存压缩方案,70B参数模型显存需求从140GB压缩至35-50GB,提升单卡利用率 。
- 混合精度推理:采用FP8/BF16混合精度,结合MoE架构优化算力分配,推理效率提升30%+ 。
成本结构
项目 | 成本占比 | 说明 |
---|---|---|
GPU硬件采购 | 60% | 单卡H20约6万~8万元,8卡服务器成本约60万/台 ,2台120W+ |
IB网络设备 | 15% | 400Gbps IB交换机及线缆投入 |
电力与运维 | 20% | 单台功耗约3.2kW(300W/卡),年电费超10万元 |
软件授权 | 5% | 含容器化部署工具及AI框架授权 |
测试环境QWen2-32B 部署方案(1台单卡H20,年成本5万+)
硬件配置
- 单卡方案:1台服务器搭载单张H20 GPU(显存96GB),支持32B模型全量参数加载 。
- 量化优化:采用4-bit/8-bit量化技术,显存占用降低至24GB以下,适配单卡推理需求 。
- 配套硬件:搭配16核CPU、64GB内存、1TB NVMe存储,满足轻量级任务处理 。
性能表现
- 推理速度:单卡FP16算力148 Tflops,32B模型响应速度达15 token/s(输入长度≤4k) 。
- 能效比:300W功耗下,单位算力成本仅为H100方案的1/3 。
成本结构
项目 | 成本占比 | 说明 |
---|---|---|
GPU硬件采购 | 70% | 单卡H20约6万~8万元,按3年折旧计年成本约2万 |
服务器维护 | 20% | 年电费约1.5万元 |
软件与许可证 | 10% | 含量化工具及推理框架授权 |
方案对比与适用场景
维度 | **DeepSeek-R1(2*8卡H20)** | **QWen2-32B(单卡H20)** |
---|---|---|
适用任务 | 超大规模模型训练/推理(如70B+参数) | 中等复杂度推理(如企业级问答系统) |
性能优势 | 支持多机显存池化,算力扩展性强 | 低延迟、高性价比 |
推荐场景 | 科研机构、大型企业AI实验室 | 中小企业、开发者个人项目 |
部署建议
网络优化:DeepSeek-R1需优先部署IB网络,避免因通信瓶颈导致算力浪费 。
成本控制:QWen2-32B建议采用预量化模型,减少显存占用及硬件投入 。
运维监控:集成Prometheus+Granafa监控GPU利用率及健康状态,降低故障风险 。
遇到问题,找老架构师取经
借助此文,尼恩给解密了一个高薪的 秘诀,大家可以 放手一试。保证 屡试不爽,涨薪 100%-200%。
后面,尼恩java面试宝典回录成视频, 给大家打造一套进大厂的塔尖视频。
通过这个问题的深度回答,可以充分展示一下大家雄厚的 “技术肌肉”,让面试官爱到 “不能自已、口水直流”,然后实现”offer直提”。
在面试之前,建议大家系统化的刷一波 5000页《尼恩Java面试宝典PDF》,里边有大量的大厂真题、面试难题、架构难题。
很多小伙伴刷完后, 吊打面试官, 大厂横着走。
在刷题过程中,如果有啥问题,大家可以来 找 40岁老架构师尼恩交流。
另外,如果没有面试机会,可以找尼恩来改简历、做帮扶。
遇到职业难题,找老架构取经, 可以省去太多的折腾,省去太多的弯路。
尼恩指导了大量的小伙伴上岸,前段时间,刚指导一个40岁+被裁小伙伴,拿到了一个年薪100W的offer。
狠狠卷,实现 “offer自由” 很容易的, 前段时间一个武汉的跟着尼恩卷了2年的小伙伴, 在极度严寒/痛苦被裁的环境下, offer拿到手软, 实现真正的 “offer自由” 。