pytorch 多GPU训练总结（DataParallel的使用）

最新推荐文章于 2025-04-16 16:26:51 发布

lllily

最新推荐文章于 2025-04-16 16:26:51 发布

阅读量8.2w

点赞数 80

分类专栏： Python 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40087578/article/details/87186613

版权

本文总结了使用PyTorch进行多GPU训练的经验，包括DataParallel的正确使用方式，避免了在反向传播时不必要的模型参数同步。强调DataParallel的并行计算仅存在于前向传播，并提供了解决GPU负载不均衡问题的方案，通过在每个GPU上独立计算loss并返回，实现负载均衡。此外，给出了完整的代码示例链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里记录用pytorch 多GPU训练踩过的许多坑仅针对单服务器多gpu 数据并行而不是多机器分布式训练

一、官方思路包装模型

官方原理图

这是pytorch 官方的原理图按照这个官方的原理图修改应该参照

https://blog.csdn.net/qq_19598705/article/details/80396325

上文也用dataParallel 包装了optimizer, 对照官方原理图中第二行第二个，将梯度分发出去，将每个模型上的梯度更新（第二行第三个），然后再将更新完梯度的模型参数合并到主gpu(第二行最后一个步骤)

其实完全没必要，因为每次前向传播的时候都会分发模型，用不着反向传播时将梯度loss分发到各个GPU，单独计算梯度，再合并模型。可以就在主GPU 上根据总loss 更新模型的梯度，不用再同步其他GPU上的模型，因为前向传播的时候会分发模型。

所以上述链接里不用 dataParallel 包装 optimizer。

DataParallel并行计算只存在在前向传播

总结步骤：

import os
import torch
args.gpu_id=&#

最低0.47元/天解锁文章

博客等级

码龄8年

27
原创

127
点赞

713
收藏

37
粉丝

关注

私信

热门文章

分类专栏

算法发
算法 1篇
研发 12篇
计算机视觉
linux 1篇
Python 9篇
mysql 1篇
pytorch 1篇
深度学习 3篇
C++
java 1篇
操作系统 2篇
推荐系统 1篇

展开全部收起

上一篇：: 在MySql安装上踩过的大深坑

下一篇：: Batch Normalization 论文阅读

最新评论

topK算法
SuasyYi: 你都说了k远小于n 那nlogk肯定比klogn大啊把n都缩了log了怎么可能klogn更大
topK算法
SuasyYi: 建议看这篇 https://cloud.tencent.com/developer/ask/sof/107983543/answer/132737987 能列举出来的都是NLogK比KlogN更大 N= 16 (2^4), k = 8 (2^3) O(Nlog(K)) = 16* 3 = 48 O(Klog(N)) = 8 * 4 = 32 N= 16 (2^4), k = 12 (log to base 2 = 3.5849) O(Nlog(K)) = 16* 3.5849 = 57.3584 O(Klog(N)) = 12 * 4 = 48 N= 256 (2^8), k = 4 (2^2) O(Nlog(K)) = 256* 2 = 512 O(Klog(N)) = 4 * 8 = 32 N= 1048576 (2^20), k = 16 (2^4) O(Nlog(K)) = 1048576* 4 = 4194304 O(Klog(N)) = 16 * 20 = 320 N= 1048576 (2^20), k = 1024 (2^10) O(Nlog(K)) = 1048576* 10 = 10485760 O(Klog(N)) = 1024 * 20 = 20480 N= 1048576 (2^20), k = 524288 (2^19) O(Nlog(K)) = 1048576* 19 = 19922944 O(Klog(N)) = 524288 * 20 = 10485760 但看了这个https://cloud.tencent.com/developer/ask/sof/107983543/answer/132737987 分析发现实际时间nlogk会更好
人脸识别模型训练
shining5566: 谢谢，我去学习学习
人脸识别模型训练
dman3: 训练一次大概要多久啊
人脸识别模型训练
m0_53903957: 大佬，你给的那个模型可以直接用来做人脸识别吗？

大家在看

最新文章

目录

展开全部

收起

评论 16

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。