- 博客(7)
- 收藏
- 关注
原创 大模型LoRa微调训练曲线图分析:train_acc出现剧烈抖动
如图,在训练集上,train_acc出现剧烈抖动,原因是训练的batch_size太小。我这里的batch_size为1,如果调高一些,acc曲线图震荡的情况将会得到改善。
2024-09-06 20:37:13 150
原创 神经网络训练曲线分析:loss与val_loss 先上升后下降
其原因是:带momentum的方法训练,可看作在参数值和momentum组成的二元组上,每步乘一个矩阵,然后加一个噪音。不发散,要求这个矩阵的特征值范数小于1.但是,可能有复特征值和复特征向量。所以,虽然系数在衰减,但复的部分可能被变换到实的部分来,就出现初期loss上升的情况,直到模最大的系数被衰减到1以下。综上,初期loss上升,不一定发散,是正常的。在不带momentum的情况下,一般不应该出现这种情况。如图,对于val_loss和train_loss在训练初期出现上升,而后逐渐下降的情况是。
2024-09-06 20:30:44 198 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人