关于mmdetection使用pytorch进行分布式训练时遇到的子程序中断问题,建议的解决方法如下:
1. 检查Trace Back的提示,如果是自己代码编写的问题,则根据提示修改代码;
2. 若非代码编写问题(提示可能为python本身的问题),可以尝试:
- 重新编译/加载环境;
- 改用单卡跑相同的代码,报错位置会更加具体;
如果你已经尝试过其他各种方法都没用,我比较推荐使用单卡跑的方式,快速准确!
如有指正,欢迎文明评论交流!
关于mmdetection使用pytorch进行分布式训练时遇到的子程序中断问题,建议的解决方法如下:
1. 检查Trace Back的提示,如果是自己代码编写的问题,则根据提示修改代码;
2. 若非代码编写问题(提示可能为python本身的问题),可以尝试:
如果你已经尝试过其他各种方法都没用,我比较推荐使用单卡跑的方式,快速准确!
如有指正,欢迎文明评论交流!