deepspeed解决多卡inference的时候，hosts内存爆表的问题

最新推荐文章于 2024-10-16 17:48:16 发布

梅赛德斯巴伐马

最新推荐文章于 2024-10-16 17:48:16 发布

阅读量240

点赞数 1

文章标签： python 机器学习 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/h12321hzhy/article/details/142252147

版权

由于deepspeed在启用多卡推理的时候，需要进行多个进程的载入，会导致一份transformers的weights被多个进程重复加载，用来替换子图用，导致在载入的时候，如果基础weights过大，那么需要的hosts内存就会巨大无比。

以llama-65B来举例，如果切分成TP 16，那么所需的weights大小就是：

65B * 2 * 16大小，这在很多电脑上都吃不消。

deepspeed提供了meta载入的方式，但是依旧解决不了需要载入原始模型的问题，因为如果要切子图，就需要至少可以把原图载入进来。

将代码跟下去可知，deepspped在init_inference的时候，会有个一些通信算子，因此可以通过如下方式解决这个问题。

1. 多进程依次载入

2. 每次只执行1个进程的weights切分

3. 切分之后将子图保存。

4. 利用load_dict的方式，以meta加载原图，然后切分之后再将子图weights进行load_dict，从而达到每个进程只载入1/tp的weights的目的。

梅赛德斯巴伐马

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

梅赛德斯巴伐马 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。