梯度下降可分为BGD,SGD,MBGD
算法注意事项:
- 步长
选择过小,迭代速度慢;选择过大,有可能不收敛
- GD求的只是局部最小值,最好多次用不同的初值计算,选择
最小的那个
- 由于样本不同特征的取值范围不一样,可能导致迭代很慢,可以对特征数据归一化
- 和牛顿法/拟牛顿法相比,两者都是迭代求解,不过梯度下降法是梯度求解,而牛顿法/拟牛顿法是用二阶的海森矩阵的逆矩阵或伪逆矩阵求解。相对而言,使用牛顿法/拟牛顿法收敛更快。但是每次迭代的时间比梯度下降法长。
梯度下降可分为BGD,SGD,MBGD
算法注意事项: