【进程丢失】pytorch DDP分布式训练10个epoch就丢失1个GPU进程

城俊BLOG

于 2021-05-30 13:02:45 发布

阅读量1k

点赞数

分类专栏： # DL-报错 NVIDIA 运维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qxqxqzzz/article/details/117397086

版权

DL-报错同时被 3 个专栏收录

122 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

66 篇文章

订阅专栏

12 篇文章

订阅专栏

在使用PyTorch的DDP分布式训练时，遇到训练到特定epoch后丢失GPU进程的问题。初步分析可能是由于batch size过大导致显存溢出或内存泄漏。尝试解决方案包括减小batch size和监控内存使用。通过日志分析，确认第二次问题由内存耗尽触发了系统杀死进程。经过代码调整，内存泄漏问题似乎得到缓解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

现象
- 第一次
- 第二次
原因分析
附：
日志监控
日志分析

现象

第一次

Resnet50 + Arcsoftmax + deepglint *2 训练10个epoch之后，会丢失一个GPU进程，然后训练程序卡住不动。重复发生，并且每次都是训练到10个epoch时发生，注意每次掉进程的卡bus id不一样
Pytorch 版本 1.7.0 ，卡：titan rtx x 8

第二次

Resnet100 + Arcsoftmax + (megaface + vggface2 + deepglint) *2 训练1个epoch （还没到2个epoch）之后
服务器锁屏tts界面显示：Out of memory，系统杀掉了进程
在这里插入图片描述

原因分析

第一次-原因分析

很奇怪的bug，根据第一次日志，目前分析的原因：

batch size过大，每张卡显存占的太满，导致训练的时候显存爆

了解本专栏

超级会员免费看

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。