1、项目环境:
- 系统:Win10
- 显卡:
- Python3.9
- CUDA:cuda12.0
- cuDNN:cudnn 8.9.1
- paddlepaddle:pip安装版本:gpu==2.6.0.post120
2、问题描述
2.1、进行paddlepaddle-gpu安装
安装指令:
python -m pip install paddlepaddle-gpu==2.6.0.post120 -f https://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.html
安装后,进行安装成功检查,出现以下信息:
我刚开始以为这只是一个普通警告信息,所以忽略了。但是后面进行模型训练时,发现 loss 一直是 nan,模型无法进行正常训练。
3、原因分析:
刚开始,我以为是学习率、batch_size参数设置有问题,经过不同参数的调整,问题还是无法解决。
后来进行问题查找,cuda 120,paddle版本 2.6.0.post120对显卡算力的架构有一定要求。我的显卡(算力6.1)暂时不满足。(paddle版本2.5.1需要7.0以上算力的架构)
显卡算力查看方法:
https://blog.csdn.net/GodGump/article/details/132117731
解决方案:
- 更换显卡算力较高的设备
- 降低CUDA与paddle版本