上一篇中开始学习使用linux远程登陆服务器,并尝试了运行深度学习模型。
万幸,学长已经帮忙处理好了数据集,省了很多麻烦。
遇到的问题:
1.CUDA error
未知原因,疑似版本不适配
2.out of memory
后来发现用错了GPU
3.第一次训练完已经生成了保存的模型文件,太粗心竟然没发现(以后需要注意避免),还是我细看代码时候发现的,说明用现成的模型需要先熟练理解,不然很容易犯错。
4.由于3的原因,我第二次又进行了训练,(?后来感叹自己果然是萌新菜鸟),发现loss变成nan,大张旗鼓进行一顿分析及资料查阅未果,最后终于发现已经训练完毕了。
5.想要在服务器上远程搭建jupyter notebook,按教程操作,屡屡失败,最后发现是配置文件的注释符号没有删!(又是菜鸟级错误,积累了修改配置文件的经验)
jupyter notebook; http:172.18.130.140:8888; 密码:19990710
6.第一次尝试修改配置文件,系统报:没有权限,在我进入该文件目录后,就可以修改了
7.接下来就进入验证:实际上本打算直接用直接运行python验证,结果报错;无奈只能到notebook上验证