多元线性回归

多元变量梯度下降

repeat until convergence:{θ0:=θ0α1mi=1m(hθ(x(i))y(i))x0(i)θ1:=θ1α1mi=1m(hθ(x(i))y(i))x1(i)θ2:=θ2α1mi=1m(hθ(x(i))y(i))x2(i)}

特征缩放与均值归一化

为了使梯度下降能够更快的收敛,对于取值范围很大或者很小的特征,进行特征缩放与均值归一化处理。

xi:=xiμisi

其中,μi是特征i的均值,si是特征i的取值区间长度或者标准差。

学习率(leanring rate,α

调试梯度下降

画图观察梯度下降法每次迭代的代价函数值J(θ),如果J(θ)增大,说明应该减小α

自动收敛检验

如果在J(θ)的一次迭代中,减小的值小于103,则认为代价函数已经收敛。然而在实际操作中其实很难选到这种阈值。

如果α过小,收敛速度会很慢;
如果α过大,代价函数值不会在每次迭代时减小,所以不会收敛。

多项式回归

对于假设函数hθ(x)=θ0+θ1x1,可以基于x1构造新的特征x12x13x1,以此得到二次函数hθ(x)=θ0+θ1x1+θ2x12,三次函数hθ(x)=θ0+θ1x1+θ2x12+θ3x13,和平方根函数hθ(x)=θ0+θ1x1+θ2x1

以三次函数hθ(x)=θ0+θ1x1+θ2x12+θ3x13为例,选择新的特征x2=x12x3=x13,就可以将三次函数拟合到三元线性函数hθ(x)=θ0+θ1x1+θ2x2+θ3x3,就可以使用多元线性回归来进行求解。

需要注意的是构造新的特征后,特征缩放变得尤为重要。

正规方程法

分别对n个特征变量求偏导数,偏导数等于0求θ
J(θ)θj=0,for j=0,1,,n

θ=(XTX)1XTy

Y=Xθ
XTY=XTXθ
(XTX)1XTY=θ

梯度下降法与正规方程法对比

梯度下降法 正规方程法
需要选择学习率α 不需要选择α
需要经过多次迭代计算 不需要迭代计算
在特征数量n很大时,依然可以有效计算 在n很大时,由于要计算(XTX)1,矩阵维度变大使计算量变大,计算缓慢
计算时间复杂度o(kn2) 时间复杂度o(n3)

XTX不可逆问题

造成XTX不可逆的问题主要有两个:
1. 多余的特征,比如两个特征可以通过线性关系相互表示
2. 特征数目过多,mn,删除某些特征或者使用正则化

阅读更多
想对作者说点什么?

博主推荐

换一批

没有更多推荐了,返回首页