在准备训练深度学习神经网络时遇到的一些问题
1. 各种 .dll not found
a. cudart64_101.dll not found
我希望在训练模型的时候用GPU加速,但发现有些动态库找不到。cudart64_*.dll 是NVIDIA的cuda工具最基础的库,如果出现这个问题,可能有两种情况:1. cuda的路径没有添加到系统环境变量(但一般安装这个工具的时候回自动添加的);2. cuda 版本和所用的tensorflow/pytorch等不兼容,可以到官网查看匹配的版本,建议用cuda101,tensorflow2.2.0和pytorch1.5.0都可以兼容。
b. cusparse64_10.dll not found
这是cuda 工具包中的一个组件,我在安装cuda工具包的时候为了省时没有勾选,可以再重新安装一遍,在自定义安装中勾选就可以了。
c. cudnn64_7.dll not found
cudnn 是cu deep neural network 的简称,是NVIDIA专门为深度神经网络训练提供的库,需要单独下载,可到NVIDIA官网查找。
2. cuda unkown error
有时候运行模型时会出现找不到GPU或者cuda 未知错误,这时候我关掉一些其他软件,清理一下内存,在运行几遍就不报错了。可能是设备被占用或者内存不足之类的问题