【斯坦福cs324w】中译版大模型学习笔记七 LLM分布式训练

最新推荐文章于 2024-08-28 21:43:54 发布

自律版光追

最新推荐文章于 2024-08-28 21:43:54 发布

阅读量136

点赞数

分类专栏： # LLM 文章标签：学习笔记分布式人工智能神经网络

本文链接：https://blog.csdn.net/m0_61819793/article/details/132978248

版权

LLM 专栏收录该内容

25 篇文章 1 订阅

订阅专栏

文章目录

常见并行策略
参考资料

必要性
llm数据量和参数量都太大，对算力的要求很高
单一设备的算力和容量受内存墙的限制难以跟上模型训练的需求
解决办法
使用多节点集群进⾏分布式训练，以提升算⼒

内存墙
即内存容量、多个级别内存的传输带宽、AI硬件之间的通信瓶颈(设备间的内存墙问题)限制了神经网络的设计
潜在原因：AI硬件专注于提高硬件的峰值算力，这是以简化或者删除其他部分（例如内存的分层架构）为代价的

常见并行策略

需要考虑的问题
协调集群中的计算和通信
用矩阵乘法的例子来说明如何实现神经网络的分布式训练

数据并行

特点
将数据x进行切分，每个设备上的模型w相同
图示如下

将两个设备的输出拼接得到完整输出
关键点
由于数据分发，反向传播时两个设备上的 $\frac{\partial loss}{\partial w}$ 不同，最终得到两个模型
解决办法
在反向传播中对各个设备上的梯度进行AllReduce处理来确保各个设备上模型的一致性
适用情况
由于反向过程中同步梯度会产生通信代价，于是数据并行策略适合数据集较大，模型较小的情况。
比如视觉分类模型ResNet50