nvidia 各种框架(如pytorch)训练出现的奇怪错误

7 篇文章 0 订阅
4 篇文章 1 订阅

1 ubuntu16.04  cuda10.2 nvidia-driver:470.74 docker镜像  多gpu节点 pytorch训练yolov5,出现RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR,

1.1 初步判断是多节点训练引起,,改成单节点,调节batchsize发现小batchsize才不会出错,,但是显卡还没有很多显存,判断是显卡驱动版本引起,因为该镜像在其他机器不会出现这种情况,,把470换成450版本显卡驱动,上面问题消失

1.2 继续使用多gpu节点训练,发现偶数节点可以训练,但是奇数节点却训练出错,错误还是RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR,,然后在训练指令前面指定显卡索引CUDA_VISIBLE_DEVICES=0,1,2 python train.py ....

1.3 发现3张gpu训练时,出现nan, 确定网络代码无误后且batchsize可以被3整除,发现不用0号,只用1,2号显卡或者单独用1,2就不会出现nan,,只要使用0号gpu,无论单,多gpu训练都会是nan

1.4 初步怀疑是0号gpu出问题,或者插错pci位置,或者电源不足,,待续。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值