第九章：分布式训练

最新推荐文章于 2024-07-25 17:07:01 发布

LucyFang2020

最新推荐文章于 2024-07-25 17:07:01 发布

阅读量322

点赞数 3

文章标签：分布式

本文链接：https://blog.csdn.net/LucyLuo2020/article/details/135851452

版权

参考链接：https://github.com/datawhalechina/so-large-lm/tree/main

一、为什么分布式训练越来越流行

近年来，深度学习被⼴泛应⽤到各个领域，包括计算机视觉、语⾔理解、语⾳识别、⼴告推荐等。在这些不同的领域中，⼀个共同的特点就是模型规模越来越⼤，⽐如 GPT-3 模型的参数量达到1750亿。即使⽤1024张 80 GB 的 A100，那么完整训练 GPT-3 的时⻓都需要1个⽉。
模型规模的扩⼤，对硬件（算⼒、内存）的发展提出要求。然⽽，因为内存墙的存在，单⼀设备的算⼒及容量，受限于物理定律，持续提⾼芯⽚的集成越来越困难，难以跟上模型扩⼤的需求。
为了解决算⼒增速不⾜的问题，⼈们考虑⽤多节点集群进⾏分布式训练，以提升算⼒，分布式训练势在必⾏。

二、常见的并行策略

2.1 数据并行

数据并行，就是将数据进⾏切分，⽽每个设备上的模型是相同的，在两台设备上，分别得到的输出，都只是逻辑上输出的⼀半，将两个设备上的输出拼接到⼀起，才能得到逻辑上完整的输出。
当数据集较⼤，模型较⼩时，选择数据并⾏⼀般⽐较有优势，常⻅的视觉分类
模型，如 ResNet50，⽐较适合采⽤数据并⾏。

2.2 模型并行

当神经⽹络⾮常巨⼤，数据并⾏同步梯度的代价就会很⼤，甚⾄⽹络可能巨⼤到⽆法存放到单⼀计算设备中，这时候，可以采⽤模型并⾏策略解决问题。
模型并行，就是每个设备上的数据是完整的、⼀致的，⽽模型被切分到了各个设备上，每个设备只拥有模型的⼀部分，所有计算设备上的模型拼在⼀起，才是完整的模型。
模型并⾏的好处是，省去了多个设备之间的梯度 AllReduce；但是，由于每个设备都需要完整的数据输⼊，因此，数据会在多个设备之间进⾏⼴播，产⽣通信代价。