文章目录
现象
第一次
Resnet50 + Arcsoftmax + deepglint *2 训练10个epoch之后,会丢失一个GPU进程,然后训练程序卡住不动。重复发生,并且每次都是训练到10个epoch时发生,注意每次掉进程的卡bus id不一样
Pytorch 版本 1.7.0 ,卡:titan rtx x 8
第二次
Resnet100 + Arcsoftmax + (megaface + vggface2 + deepglint) *2 训练1个epoch (还没到2个epoch)之后
服务器锁屏tts界面显示:Out of memory,系统杀掉了进程
原因分析
第一次-原因分析
很奇怪的bug,根据第一次日志,目前分析的原因:
- batch size过大,每张卡显存占的太满,导致训练的时候显存爆