Huggingface：高效多GPU训练

最新推荐文章于 2024-05-20 12:17:52 发布

HanZee

最新推荐文章于 2024-05-20 12:17:52 发布

阅读量1.7k

点赞数

文章标签：人工智能深度学习语言模型自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_18555105/article/details/130313398

版权

Huggingface：高效多GPU训练

概念
动态策略
- Single Node、Multi-GPU
- multi-node/multi-gpu

https://huggingface.co/docs/transformers/perf_train_gpu_many

概念

首先介绍一下名词概念：
Data Parallel（DP）：数据并行，相同的步骤多次执行，把一个batch的数据分成多份，该处理是并行的，所有步骤都会在结束时同步。

Tensor Parallel（TP）：Tensor并行，把一整个tensor分成多份，每份被分配在指定的GPU上，在这个过程中，每份单独在不同的gpu上单独的运行，并最终同步结果。

Pipline Parallel（PP）：把模型的一个层或者多个层放在一个单独的GPU，每个gpu并行处理模型的不同层。

Zero Redundancy Optimizer (ZeRO) ：同样执行tensor分割操作，有些类似于TP，除了整个tensor被重建用于前向传播与反向传播，因此模型不需要被更改。也支持卸货操作，对与GPU受限的设备。

Sharded DDP：是基本ZeRO概念的另一个名称，用于各种其他ZeRO实现。

动态策略

Single Node、Multi-GPU

适合在单GPU的策略：

DDP
Zero

不适合单GPU的策略：
3. DDP
4. Zero
5. TP

multi-node/multi-gpu

拥有快速节点连接：

ZeRO - as it requires close to no modifications to the model
PP+TP+DP - less communications, but requires massive changes to the model
没有快速节点连接：

DP+PP+TP+ZeRO-1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Huggingface：高效多GPU训练

同样执行tensor分割操作，有些类似于TP，除了整个tensor被重建用于前向传播与反向传播，因此模型不需要被更改。：Tensor并行，把一整个tensor分成多份，每份被分配在指定的GPU上，在这个过程中，每份单独在不同的gpu上单独的运行，并最终同步结果。：数据并行，相同的步骤多次执行，把一个batch的数据分成多份，该处理是并行的，所有步骤都会在结束时同步。：把模型的一个层或者多个层放在一个单独的GPU，每个gpu并行处理模型的不同层。：是基本ZeRO概念的另一个名称，用于各种其他ZeRO实现。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

HanZee 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。