动量梯度下降法是对梯度下降法的一种优化算法,该方法学习率可以选择更大的值,函数的收敛速度也更快。
梯度下降法就像下面这张图,通过不断的更新 w与b,从而让函数移动到红点,但是要到达最优解,需要我们不断的迭代或者调整学习率来达到最后到达最优解的目的。
但是调大学习率会导致每一次迭代的步长过大,也就是摆动过大,误差较大。调小学利率会让迭代次数增加。而增加迭代次数则明显的增加了训练时间。
动量梯度下降法不但能使用较大的学习率,其迭代次数也较少
一、指数加权和
在理解动量梯度下降法之前,我们首先要了解指数加权平均数,这是动量梯度下降法的核心。
那么,什么是指数加权平均数呢,我们这里举例说明。
下面是一个同学的某一科的考试成绩: 平时测验 80, 期中 90, 期末 95 学校规定的科目成绩的计算方式是: 平时测验占 20%; 期中成绩占 30%; 期末成绩占 50%; 这里,每个成绩所占的比重叫做权