win11 + rtx3060ti +TensorFlow-gpu+cuda
看似上面的环境非常简单,但是里面的版本对应非常严格,我尝试过TensorFlow2.3.0+cuda10.2,遇到各种奇葩问题:
1.cpu训练数据时,loss和accuracy都正常,且稳定下降;相同数据,gpu训练时loss不下降,accuracy不下降
2.cpu训练时,loss正常,且稳定下降;gpu训练时loss为nan
最后各种google,发现有可能是cuda带来的影响,于是升级了cuda11.2,升级后发现功能更加丝滑、不会出现奇葩问题了。
cuda安装也是坑,如果安装了其它版本,一定要先卸载完全,否则不能正常安装;最后根据安装提示,我安装了vs2019,才顺利完成cuda11.2的安装
运行的时候会提示zlib找不到,下载后放到c:\\windows\system32目录