loss为nan
搭建了基于restnet50的多损失行人重识别程序,通过restnet50提取图片特征,在迭代训练过程中出现了LOSS为NAN的情况,观察日志发现最初的几个bitch_size所有的一切都是正常的,从restnet50提取的特征也都是正常的,但在几轮之后,从restnet50提取的特征变开始变成nan。
造成nan的问题有几种可能:
- 图片样本的问题--在本次训练中全都同样规格的样本,故排除这个问题
- 程序的问题,如某些地方的除法或者log运算导致了nan---认真检查程序没有此问题
- 损失太大,导致学习步伐过快----初步怀疑,通过赋予损失权重0.01后,程序正常,至此找到问题所在