nvidia 各种框架(如pytorch)训练出现的奇怪错误

最新推荐文章于 2023-08-05 13:39:02 发布

captain_richard

最新推荐文章于 2023-08-05 13:39:02 发布

阅读量253

点赞数

分类专栏：工程机器学习 pytorch 文章标签： pytorch 深度学习错误归类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33671888/article/details/120762259

版权

工程同时被 3 个专栏收录

30 篇文章 3 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

4 篇文章 1 订阅

订阅专栏

1 ubuntu16.04 cuda10.2 nvidia-driver:470.74 docker镜像多gpu节点 pytorch训练yolov5,出现RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR，

1.1 初步判断是多节点训练引起，，改成单节点，调节batchsize发现小batchsize才不会出错，，但是显卡还没有很多显存，判断是显卡驱动版本引起，因为该镜像在其他机器不会出现这种情况，，把470换成450版本显卡驱动，上面问题消失

1.2 继续使用多gpu节点训练，发现偶数节点可以训练，但是奇数节点却训练出错，错误还是RuntimeError: cuDNN error: CUDNN_STATUS_INTERNAL_ERROR，，然后在训练指令前面指定显卡索引CUDA_VISIBLE_DEVICES=0,1,2 python train.py ....

1.3 发现3张gpu训练时，出现nan, 确定网络代码无误后且batchsize可以被3整除，发现不用0号，只用1，2号显卡或者单独用1，2就不会出现nan,,只要使用0号gpu，无论单，多gpu训练都会是nan

1.4 初步怀疑是0号gpu出问题，或者插错pci位置，或者电源不足，，待续。。

captain_richard

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

captain_richard CSDN认证博客专家 CSDN认证企业博客

码龄9年

52: 原创

39万+: 周排名

145万+: 总排名

10万+: 访问

: 等级

1292: 积分

39: 粉丝

43: 获赞

135: 评论

234: 收藏

私信

关注

热门文章

分类专栏

工程 30篇
pytorch 4篇
libtorch 1篇
ssd 1篇
机器学习 7篇
数学知识 1篇
io
Qt 2篇
cuda 1篇
数据集
nms
数据库 1篇
tensorflow 1篇
移植编译类 3篇
标注工具类 3篇
图像处理 3篇
代码查看 1篇
golang 2篇
设计理念 1篇
加密

最新评论

golang 问题汇总
是Yu欸: 这是一篇高质量的好文，深度理解和清晰的表达方式使复杂的技术概念变得容易理解，值得收藏点赞。博主用心很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，期盼博主能够光顾我的博客，给予宝贵的指导！
onnxruntime cuda版本使用时出现的错误汇总
captain_richard: 要的，因为这个用到cuda的其它组件，最后安装，不然可能缺一部分东西
onnxruntime cuda版本使用时出现的错误汇总
captain_richard: 一种是直接和可执行文件同个目录，要么就在环境变量里面设置
onnxruntime cuda版本使用时出现的错误汇总
captain_richard: 看下你编译的配置以及cuda的路径是否链接了，还有就是cuda和onnxruntime版本
onnxruntime cuda版本使用时出现的错误汇总
captain_richard: 这个是需要用到cuda的，可以在cuda的安装目录搜索这个文件，编译时链接他的路径就行，

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。