网上搜索结果有建议如下,尚未验证
在将prototxt里面调整幅度:
weight_decay: 0.004 ->0.0004
调小之后,就可以就行正常训练了,原理要进一步理解
1、观察数据中是否有异常样本或异常label导致数据读取异常
2、调小初始化权重,以便使softmax输入的feature尽可能变小3、降低学习率,这样就能减小权重参数的波动范围,从而减小权重变大的可能性。这条也是网上出现较多的方法。
4、如果有BN(batch normalization)层,finetune时最好不要冻结BN的参数,否则数据分布不一致时很容易使输出值变的很大。