影响小批量梯度下降法的主要因素有: 1) 批量大小𝐾、 2) 学习率𝛼、 3) 梯度估计.
那么如何选择批量大小K呢?
一般而言, 批量大小不影响随机梯度的期望, 但是会影响随机梯度的方差.
- 批量大小越大, 随机梯度的方差越小, 引入的噪声也越小, 训练也越稳定, 因此可以设置较大的学习率.
- 而批量大小较小时, 需要设置较小的学习率, 否则模型会不收敛.
学习率通常要随着批量大小的增大而相应地增大.
在Adam算法中:
因此当β1→1,β 2 → 1的时候:
因此可以发现此时梯度消失,因此需要进行偏差修正。
第七章总结(必做)