1、更多的优化算法
2、激活函数
3、网络初始化
4、批归一化
5、数据增强
1、更多的优化算法:
回顾:
1、随机梯度下降
局部极值
Saddle point问题
2、动量梯度下降
这两个方法的问题:
1、都受初始学习率的影响很大
2、每一个维度的学习率都一样(稀疏数据得不到更新,因为导数为0)
3、AdaGrad算法
调整学习率
Adagrad特点:
前期,regularizer较小,放大梯度。
后期,regularizer较大,缩小梯度。
梯度随训练次数降低。
每个分量有不同的学习率。
Adagrad算法缺点:
学习率设置较大,导致regularizer影响过于敏感。
后期,regularizer累积值太大,