大语言模型训练技巧

u013250861

已于 2024-02-14 13:18:53 修改

阅读量172

点赞数

分类专栏：图神经网络 # LLM/预训练&SFT 文章标签：语言模型人工智能深度学习

于 2023-11-03 23:43:39 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/134212747

版权

LLM/预训练&SFT 同时被 2 个专栏收录

84 篇文章 81 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

图神经网络

39 篇文章 16 订阅 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了多种用于优化大语言模型训练的技术，包括FlashAttention、Multi Query Attention、相对位置编码、RMSNorm Normalization和SwiGLU等，旨在提高运行速度、减少内存使用。此外，还探讨了CPU卸载、重计算、量化压缩、通信算子如Ring ALL reduce、混合精度训练、零冗余优化器（ZeRO）以及各种并行策略如数据并行、模型并行、张量并行和3D并行，以解决大规模模型训练中的内存和计算效率问题。

摘要由CSDN通过智能技术生成

10、Flash Attention

标准Attention的中间结果需要通过高带宽内存（HBM）进行存取，空间复杂度为O(N2)。随着输入序列长度的增加，标准Attention计算的时间和空间复杂度呈线性增长。FlashAttention通过减少以及加速对HBM的访问，实现运行加速。运行速度比标准Attention快 2-4 倍，所需内存减少5-20倍。

11、Multi Query Attention

通过让所有的Head之间共享同一份Key和Value矩阵，每个头只单独保留一份Query，从而实现参数量和计算量的减少。

12、相对位置编码

可以在较短的序列长度上训练，在较长的序列长度上推理，进而实现训练加速。例如ALiBi (Attention with Linear Bias)，RoPE (rotary positional embeddings)。

13、RMSNorm Normalization

分为Post-Norm和Pre-Norm。Post-Norm在残差连接后对参数归一化，对参数正则化更强。Pre-Norm在残差连接前对参数归一化，有一部分参数直接与后面的参数相加，因此没有对这部分参数进行正则化，可以防止梯度爆炸或消失。RMSNorm是Pre-Norm的一种&#x

了解本专栏

超级会员免费看

u013250861

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大语言模型训练技巧

优化器存储一个float32的模型副本，则会消耗4X的显存，同时存储两个状态参数，分别消耗4X和4X的显存，则总共需要16X的显存。可以用来衡量算法/模型的复杂度。已知Transformer encoder的参数为：embedding(E)，sequence(s)，attention head(ah)，vocabulary(v)，hidden size(h)，layer(n)因此，任意给定的GPU都会有两部分的通信，一个是与包含所有相同层的GPU(数据并行)，另一个与不同层的GPU(流水线并行)。
复制链接

扫一扫

专栏目录