1. 多维特征
上标指不同的向量,下标指某个向量中不同的元素。
多元线性回归就是有多个特征值或变量来预测结果。
2. 多元梯度下降法
3. 特征缩放
在我们面对多维特征问题的时候,我们要保证这些特征都具有相近的尺度,这就是特征缩放, 特征缩放可以使梯度下降迭代的次数减少,能更快的收敛。
4. 学习率
梯度下降算法收敛所需要的迭代次数根据模型的不同而不同,我们不能提前预知,我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。
如下图所示,在迭代次数=400时趋于收敛。
也有一些自动测试是否收敛的方法,例如将代价函数的变化值与某个阀值(例如0.001)进行比较,但通常看上面这样的图表更好。
梯度下降算法的每次迭代受到学习率的影响,如果学习率过小,则达到收敛所需的迭代次数会非常高;如果学习率过大,每次迭代可能不会减小代价函数,可能会越过局部最小值导致无法收敛。
通常可以考虑尝试些学习率:α=0.01、0.03、0.1、0.3、1(以三倍增加)