确保收敛
以下小技巧用来是网络收敛的必要不充分条件:
- 迭代次数(Epoch):至少
5-7
个epoch
,也就是必须对所有样本训练5-7
遍,可以根据实际情况调整至更大; - 样本数量分布(Sample Account):注意保持各个类别样本数均衡,类别间数量差异控制在
2
倍以内吧,比如最少的样本数为100
,最多的样本最好在300
以下。如果样本差异过大,比如某类100
,另一类1000
以上,很可能导致Loss
一直在高低值之间震荡,难以收敛; - 学习率(Learning Rate):初始学习率不宜过大,经常采用的初始学习率如
0.01
,太大的学习率使得Loss
值一直处于高位震荡,无法收敛; - …
加速收敛
如何让网络更加强健、提升训练收敛速度是以下小技巧所关心的:
- 学习率衰减(LR Decay):让学习率在网络训练的后半阶段逐渐缩小,可以进一步提升网络准确度;
- 丢弃节点(Dropout):当网络节点过多时,采用Dropout让网络中部分节点不工作,防止网络过拟合,提升网络稳健性;
- …