解决多卡加载预训练模型时，卡0总会比其他卡多占用显存，多卡占用显存不均

最新推荐文章于 2023-10-10 18:37:15 发布

大圆规家

最新推荐文章于 2023-10-10 18:37:15 发布

阅读量2.1k

点赞数 1

分类专栏：笔记 python函数文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mumuximmmmmm/article/details/126750619

版权

笔记同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

出现问题：

再跑stdc官方给出代码时，使用多卡加载pretrained模型时，卡0上比卡123多三个进程，卡123都只有一个进程，中断训练后卡0全部进程都中断。即卡0在正常训练时比卡123多占用显存。（使用nvidia-smi命令查看）

这里发现问题存在于load模型的时候，直接load的话会导致参数加载到之前保存模型的device上（大部分情况下应该是只用cuda0去保存），这里可以将load函数加一个参数为map_location解决：

model_weights = torch.load(path, map_location='cpu')

改完之后发现仍旧存在这个问题

后来查看代码的时候发现，在网络的class内部，init_weight的时候也有一个load函数。这个函数内部无map_location参数。

因此，加入这个参数后如果卡0仍旧多占用显存和进程的时候，可能是某个隐藏的类别内部存在torch.load函数。多找找加上map_location参数即可使得全部的卡占用相同显存。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
解决多卡加载预训练模型时，卡0总会比其他卡多占用显存，多卡占用显存不均

多卡训练卡0占用显存多，卡0占用显存多余其他卡
复制链接

扫一扫

专栏目录

大圆规家 CSDN认证博客专家 CSDN认证企业博客

码龄6年

18: 原创

30万+: 周排名

9万+: 总排名

3万+: 访问

: 等级

278: 积分

158: 粉丝

37: 获赞

28: 评论

45: 收藏

私信

关注

热门文章

分类专栏

笔记 11篇
python函数 5篇
matlab 1篇

最新评论

矩池云中安装使用matlab2019
weixin_52485093: 连接vnc时显示 too many security failures 连接不上怎么解决呀
矩池云中安装使用matlab2019
大圆规家: 2. 建立连接后安装matlab 之前那会这里他路径里自带安装包，不知道现在有没有，我好久没用他的机器了。
vscode不支持旧版本os vscode无法提示
CSDN-Ada助手: 恭喜您写了第19篇博客！看来您对vscode的使用经验丰富啊。不过很抱歉听到您在旧版本os上遇到了提示问题，这可能会影响到您的工作效率。或许您可以尝试更新您的操作系统，或者寻找其他解决方案。希望您能继续分享您的经验和解决方法，也期待您的下一篇博客！加油！
The remote host may not meet VS Code Server‘s prerequisites for glibc and libstdc++
大圆规家: 看下服务器"/"路径下存储是不是满了，删一些"/home/用户名/"下无用的数据即可。
The remote host may not meet VS Code Server‘s prerequisites for glibc and libstdc++
Cover G(心做): 我降低了vscode的版本，解决了这个问题

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。