复习
新的开始复习神经网络,得到的lloss函数是针对一个batch的所有照片的。
一轮:{先进行N个batch函数的训练,然后得到对应的loss函数然后反馈优化。训练完成之后进行测试或者验证。(注意使用张量的GPU变换)}
函数
format函数
print(“Test acc: {0}”.format(Test_acc))#将Test_acc 代替0那个位置,详细用法参考超链接
matplotlib函数:详细用法连接
label 是显示曲线的注释,同时增加一个plt.legend函数将注释显示出来
savefig函数
1.用来存储图片,具体用法就是savefig(“地址”)工程里边的那个函数就行,默认png点缀。
2.另外加就是存储放在现实的前边否则容易出现错误。
语句
print("[%d, %d] loss:%.03f" % (epochs + 1, i + 1, train_loss))要适应这种语句的表达方式。
错误
出NCCl问题的时候,是由于系统已经训练程序之后,出现了结构上的改变,所以导致第二次运行的时候,出现的这种错误。
经历
2020.8.30这个让人难受的日子,上午出现了因为训练过,所以不支持重复训练,然后重新传了一份资源,
弄个不明白错误 cuda runtime error 3 cuda initialization error 错误
我这也没有办法啊,这个地方目前没哟解决
个人端进服务器
第一种xshell:ssh root@10.193.253.233
另外一种在视屏上。
清除缓存:在root mu01中: echo 3 > /proc/sys/vm/drop_caches