GPU Bugs for Neural Network Training

1. NCCL unhandled cuda error

问题:

RuntimeError: NCCL error in: /opt/conda/conda-bld/pytorch_1565272271120/work/torch/lib/c10d/ProcessGroupNCCL.cpp:290, unhandled cuda error
Traceback (most recent call last):

subprocess.CalledProcessError: Command ‘[’/home/user3/anaconda3/envs/open-mmlab/bin/python’, ‘-u’, ‘./tools/test.py’, ‘–local_rank=2’, ‘configs/collin/dcn/faster_rcnn_dconv_c3-c5_r50_fpn_1x–hrrsd.py’, ‘work_dirs/faster_rcnn_dconv_c3-c5_r50_fpn_1x–hrrsd/epoch_12.pth’, ‘–launcher’, ‘pytorch’, ‘–out’, ‘work_dirs/faster_rcnn_dconv_c3-c5_r50_fpn_1x–hrrsd/results.pkl’, ‘–show’]’ returned non-zero exit status 1.

解决:
修改可视的GPU,且必须保证这些GPU上没有任何其他程序运行。

export CUDA_VISIBLE_DEVICES=0,5,6

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值