1,梯度下降主要在于两个求导
2,如果用梯度下降法求最大最小值,这时候特征就应该归一化这种,也可以不归一化,就是讲所有特征都是同样的scale,这样才会有最短的路径下降到最小值,否则路线会扭曲,也就是收敛得更快
所以会用到归一化(mean normalization),看了下公式,也就是标准话,使梯度下降法更快,然后收敛所需要的循环更少
3,学习率的设置
4,梯度下降法与标准方程法的区别
5,
1,梯度下降主要在于两个求导
2,如果用梯度下降法求最大最小值,这时候特征就应该归一化这种,也可以不归一化,就是讲所有特征都是同样的scale,这样才会有最短的路径下降到最小值,否则路线会扭曲,也就是收敛得更快
所以会用到归一化(mean normalization),看了下公式,也就是标准话,使梯度下降法更快,然后收敛所需要的循环更少
3,学习率的设置
4,梯度下降法与标准方程法的区别
5,