梯度下降法 对于梯度下降法而言,当偏导数 的学习效率过大或过小时,收敛的速率会变得很缓慢,α过大时甚至会无法收敛。学习效率α是一个正数。 同样梯度下降法初始点在局部最低点时同样不会再更新,此时偏导数的值为0.