零均值化
归一化
初始化权重:Xavier初始化、MSRA初始化
网络之间插入:batch normalization,归一化之后可以适当的放缩
学习率:1e-3~1e-5
可以及记录每次权重更新了多少,最好不要超过某某范围
梯度下降的问题:做之字运动,会掉入极小值点
优化梯度下降,加入一个动量项,动量初值一般为0还有nesterov方法
AdaGrad、RMSProp
前面两行的方法同时用,Adam
训练过程中学习率动态衰减,带动量的SGD用的较多,Adam较少
L-BFGS,二阶优化器
使用模型集成减少过拟合
Dropout,正向传播时随机将每一层的几个神经元置为0,避免过拟合,也可以把权重矩阵随机置0
bath normalization,数据增强和上面都是一种正则化的手段
一般只用bath normalization即可
迁移学习