如图,对于val_loss和train_loss在训练初期出现上升,而后逐渐下降的情况是正常现象。
其原因是:带momentum的方法训练,可看作在参数值和momentum组成的二元组上,每步乘一个矩阵,然后加一个噪音。不发散,要求这个矩阵的特征值范数小于1.但是,可能有复特征值和复特征向量。一个单位实向量分解为两个复特征向量的线性组合,系数可能是大于1的。所以,虽然系数在衰减,但复的部分可能被变换到实的部分来,就出现初期loss上升的情况,直到模最大的系数被衰减到1以下。综上,初期loss上升,不一定发散,是正常的。在不带momentum的情况下,一般不应该出现这种情况。