多卡(大于2)训练下pytorch的RNN训练报段错误问题(segmentation fault (core dumped))
最近使用pytorch训练模型时,使用到了pytorch的库函数 nn.RNN。模型本来在单卡和双卡下训练良好,但一旦同时用三卡及以上的时候就会报错:
segmentation fault (core dumped)
网络上的段错误大体说的都是内存溢出、指针访问越界、零除问题等问题,说例如用:
ulimit -a
ulimit -c 1024
ulimit -s unlimited
等等操作查看报错以及调大stack size。但是我尝试后发现竟然无一匹配。经过总结发现,这些答主基本是在写C/C++代码
原创
2021-03-28 03:22:26 ·
1037 阅读 ·
5 评论