1.多变量线性回归
h(x)=θ0x0+θ1x1+θ2x2+...+θnxn
h(x)=θt(t为矩阵的转正)*x
多元梯度下降
2.特征缩放
目的:提高梯度下降的收敛速度
特征缩放的标准:一般将特征近似地缩放到-1到1,不用严格为-1和1,但是太大或太小时就需要处理。
(1)除以最大值
左图是原始情况下,梯度下降的收敛;右图将变量除以最大值后,梯度下降的收敛。
(2)均值归一化
u1代表均值;s1代表范围,即最大值-最小值
3.选择合适的学习速率a
J(θ)随迭代次数变化。出现以上几种情况时,都可能是a值过大,需要选择较小的a值。
4.正规方程法 可不进行特征缩放
除迭代外另一种求θ得方法,可以一步求出θ的最优解。
公式:
X的构建:
梯度下降和正规方程优缺点比较: 比线性回归更复杂的算法时,一般还是梯度下降