[机器怎么老学习]线性回归模型

这里写图片描述

先引出机器学习万变不离其宗的公式:

损失函数+惩罚项

当损失函数为Square Loss时,所对应的模型就是Linear Regression。

预测值

ŷ (w,x)=w0+w1x1++wnxn=wTx

Ordinary Least Square

目标: min||Xwy||22

优点:无偏估计

缺点:存在ill-condition病态问题,容易发生过拟合

求解方式:

(1)迭代法(这里的 θ 对应上面的 w

J(θ)=12mi=1m(hθ(x(i))y(i))2

where

hθ=θTx=θ0+θ1x1

In batch gradient descent, each iteration performs the update
θj:=θjα1mi=1m(hθ(x(i))y(i))x(i)j

其中 α 所乘的项为 J(θ) J(θ) 称为下降方向

这里采用的方法是最速下降法, α 称为学习率,太小则学习过慢,太大则容易过学习。 [1]

  • α 的选取:

尝试法,取0.003,0.01,0.03,0.1,0.3,观察 J(θ) 的曲线下降情况

利用精确搜索(Fibonacci法、黄金分割法和二次插值法)或者不精确法(Wolfe算法)求解 [2]

  • 注意点

在用OLS中,遇到变量之间的尺度不同的时候,要用Feature Normalization方法,具体做法如下:

a. Subtract the mean value of each feature from the dataset.

b. After subtracting the mean, additionally scale (divide) the feature values by their respective “standard deviations.” [1]

(2)Normal Equations

对于线性回归而言,是有解析解的,即

w=(XTX)1XTy

随着样本的数量和变量的种类的增加,计算量也随之增大。 [1]

Ridge Regression

目标: min||Xwy||22+λ||w||22

优点:解决了multicolinearity

缺点:无法做validable selection,有偏估计

OLS虽然是无偏估计,但是有一个很大的问题,就是会依赖于训练数据而发生过拟合。(也可以从ill-condition角度上理解 [3]

w=(XTX)1XTy XTX 不是满秩的时候, XTX 不可逆,会存在多个解,如果从许多个解中选取一个的话,可能不是正确的解,容易发生过拟合。

XTX 不是满秩的情况分为两种(1)数据点少于变量的个数(行不满秩) (2)变量间存在高度的相关性(列不满秩)

当加上了L2规则项后, w=(XTX)1XTy 变成了 w=(XTX+λI)1XTy ,就可以直接求逆矩阵了。

  • λ 的选取

(1)根据岭迹图选取,在各个变量随 λ 达到平稳时的 λ

(2)用GCV(Generalized Cross-Validation)来设置

Lasso

目标: min||Xwy||22+λ||w||1

优点:可以做validable selection

缺点:不连续,无解析解,不能做group lasso

先来看看正则化项的轮廓。

这里写图片描述

目标函数

min||Xwy||22+λ||w||1

min||Xwy||22

s.t.||w||1t

可以通过Lagrange multipliers相联起来 [4] (Ridge Regression 同)。

可以得到下列图。

这里写图片描述

图上蓝色表示变量为2个时的损失函数等高线,越接近中心则损失值越小,黄色表示变量的约束范围。左图是L2范数约束,右图是L1范数约束。圆周/菱形边与等高线的交点为在约束下损失最小的 w1 w2 值,可以看到右图的 w1=0 ,即将变量降到1个变量。这是因为L2范数倾向于w的分量取值尽量均衡,即非零分量个数尽量稠密,而L0范数和L1范数则倾向于w的分量尽量稀疏,即非零分量个数尽可能少 [5]

Lasso是一种嵌入式特征选择方法

  • L1的求解:PGD (Proximal Gradient Descent)

[1] Andrew Ng, Machine Learning course https://www.coursera.org/learn/machine-learning/

[2] 谢可新《最优化方法》

[3] 机器学习中的范数规则化之(一)L0、L1与L2范数 http://blog.csdn.net/zouxy09/article/details/24971995

[4] M.Jordan 《Pattern Recognition and Machine Learning》

[5] 周志华 《机器学习》

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值