1 ubuntu16.04 cuda10.2 nvidia-driver:470.74 docker镜像 多gpu节点 pytorch训练yolov5,出现RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR,
1.1 初步判断是多节点训练引起,,改成单节点,调节batchsize发现小batchsize才不会出错,,但是显卡还没有很多显存,判断是显卡驱动版本引起,因为该镜像在其他机器不会出现这种情况,,把470换成450版本显卡驱动,上面问题消失
1.2 继续使用多gpu节点训练,发现偶数节点可以训练,但是奇数节点却训练出错,错误还是RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR,,然后在训练指令前面指定显卡索引CUDA_VISIBLE_DEVICES=0,1,2 python train.py ....
1.3 发现3张gpu训练时,出现nan, 确定网络代码无误后且batchsize可以被3整除,发现不用0号,只用1,2号显卡或者单独用1,2就不会出现nan,,只要使用0号gpu,无论单,多gpu训练都会是nan
1.4 初步怀疑是0号gpu出问题,或者插错pci位置,或者电源不足,,待续。。