今天先是做测试,看模型的结果都没问题;
同时CB那边在更新新的loss 函数,他那边改好之后,我这边简单 的修改代码,就开始train起来了。
其中发现的问题有:
- 因为loss 里面涉及到很多的矩阵的运算,所以有一个矩阵加速的工具有一个库。
注意要结合自己docker环境中的torch 的版本来下载适配的kornia,要不然,直接pip install kornia 是下载的最新的版本,会有错误的
最后下载的是 pip install kornia==0.1.4
- 第二个问题,在最开始的时候,自己以为不是自己的问题,对于多个GPU训练得到的model 以及单个GPU训练得到的model 我一直知道是有 module. (这7个字符的差异) 但是对于后面的其实应该一直保持一样的,对于这一点,我本该是非常坚定的,但是因为训练经验不足,我以为可能是这样,于是没有从导入的模型部分去找自己test 无法正常的原因。
最后困扰了一下午的每次测试出的图片太离谱,原因竟然是因为自己在train的时候 模型就是错的。
在shape对齐的时候,就有很多被舍弃了,所以那个系数是不完整的,就无法输出完整的图片。
幸亏最后解决了问题,没有造成严重的后果。
经验教训,以后训练任何模型,在开始的时候,都要拿epoch 去测试一下,看下效果,保证自己的这个测试是没有问题的。