机器学习框架之 Transformer & 大模型-CSDN博客

本文链接：https://blog.csdn.net/qq_36633599/article/details/147464070

本文从结构原理与工程实践两个角度，深入解析 Transformer 的核心机制（Self-Attention、LayerNorm），并介绍主流大模型训练优化策略（ZeRO-Offloading、MoE、LoRA）及推理加速方法（TensorRT、ONNX）。

📖 目录

1. Transformer 基本结构
- 1.1 Self-Attention 自注意力机制
- 1.2 LayerNorm 层归一化
2. LLM 训练优化技术
3. 推理加速技术
- 3.1 TensorRT
- 3.2 ONNX Runtime
4. 总结

1. Transformer 基本结构

1.1 Self-Attention 自注意力机制

Self-Attention 通过 Query、Key、Value 机制，让模型学会“关注重点”。

类比：

老板（Query）提问项目进度，员工（Key）回应不同方向的信息，最终老板根据权重高低对员工的回答（Value）加权平均，形成判断。

步骤：

每个词生成 Q、K、V
计算 Q 与所有 K 的点积相似度 → 得到权重
权重加权所有 V，得到新的表示

最终结果是对输入序列每个词的“重新编码”，体现其与其他词的关联程度。

1.2 LayerNorm 层归一化

LayerNorm 对每一层的神经元输出进行标准化，使得训练更加稳定。

类比：

像考试后将学生成绩做“标准分”转换，去除偏差，但又通过 γ 与 β 恢复表达能力。

作用：

避免梯度爆炸或消失
平衡各特征的影响
提升模型收敛速度与鲁棒性

2. LLM 训练优化技术

2.1 ZeRO-Offloading

目标：节省显存

方式：

ZeRO-1：参数拆分（多 GPU 分工）
ZeRO-2：梯度卸载（放入 CPU 内存）
ZeRO-3：参数 + 梯度完全卸载（支持 NVMe）

类比：

GPU 显存像画布，画布不够时，把部分草稿交给桌面（CPU）或仓库（NVMe）保存。

2.2 MoE（混合专家）

目标：降低计算成本，保持模型效果

机制：

模型内含多个“专家模块”
每次只激活部分专家（由 Router 路由决定）

类比：

问健康问题只找医生回答，不动用整个团队资源。

适合超大模型（如 GPT-4）

2.3 LoRA（低秩适配）

目标：轻量微调大模型，降低资源需求

机制：

主模型冻结，仅插入小规模可训练模块

类比：

不改西装整体，只加领带、胸针等配饰来适配不同场合。

适用于多任务低成本定制化大模型（ChatGPT 应用常用）

3. 推理加速技术

3.1 TensorRT

专为 NVIDIA GPU 推理加速设计

优化点：

层融合（合并卷积 + 激活等）
精度压缩（支持 FP16 / INT8）
Kernel 调度 + 动态张量支持

适用场景：高性能 GPU 上的自动驾驶、AI 视频分析等

3.2 ONNX Runtime

跨平台高性能推理引擎

支持：

多种设备：CPU、GPU、TPU、Edge
多后端加速器：CUDA、TensorRT、OpenVINO、DirectML

适用场景：跨平台部署（如桌面 + 边缘 + 云）

4. 总结

模块	技术	作用/目标
表达能力	Self-Attention	动态关注上下文关键元素
稳定训练	LayerNorm	归一化防梯度爆炸/加快收敛
显存优化	ZeRO-Offloading	分阶段卸载 GPU 压力
计算优化	MoE	激活部分专家，节省开销
微调效率	LoRA	插入小模块，高效适配新任务
推理提速	TensorRT / ONNX	GPU 专用加速 / 通用跨平台部署