- loss: 实际输出值和标签值之间的误差距离。
- 交叉熵: 刻画了两个概率分布之间的距离。
- 反向更新权重: 有了损失函数,知道了实际输出和真实值之间的距离,用梯度求导更新权重。
- 学习率:公式中的a就是学习率,表示的是每次权重更新的大小。
- 学习率设置:当学习率设置过大,x会在谷间震动,并没有更新。可以设置随着步伐增加,减小学习率。
loss和accuracy不变时
- 降低学习率(已验证)
- 减小初始化权重
- 如果有BN(batch normalization)层,finetune时最好不要冻结BN的参数,否则数据分布不一致时很容易使输出值变得很大(注意将batch_norm_param中的use_global_stats设置为false )。
- 观察数据中是否有异常样本或异常label导致数据读取异常
https://blog.csdn.net/bishen8589/article/details/88344441?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase
https://blog.csdn.net/zongza/article/details/89185852