[机器怎么老学习]线性回归模型

最新推荐文章于 2018-05-07 21:28:33 发布

ep_mashiro

最新推荐文章于 2018-05-07 21:28:33 发布

阅读量436

点赞数

分类专栏：机器学习统计学习方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tinkle181129/article/details/52965031

版权

统计学习方法同时被 2 个专栏收录

24 篇文章 0 订阅

订阅专栏

21 篇文章 0 订阅

订阅专栏

这里写图片描述

先引出机器学习万变不离其宗的公式：

损失函数＋惩罚项

当损失函数为Square Loss时，所对应的模型就是Linear Regression。

预测值

y ̂ (w, x) = w 0 + w 1 x 1 + \dots + w n x n = w T x

$\hat y(w,x)=w_0+w_1x_1+…+w_nx_n=w^Tx$

Ordinary Least Square

目标： $min ||Xw-y||_2^2$

优点：无偏估计

缺点：存在ill-condition病态问题，容易发生过拟合

求解方式：

（1）迭代法（这里的 $\theta$ 对应上面的 $w$ ）

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^2$
where

h θ = θ T x = θ 0 + θ 1 x 1

$h_{\theta}=\theta^Tx=\theta_0+\theta_1x_1$
In batch gradient descent, each iteration performs the update

θ j : = θ j - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

$\theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}$

其中 $\alpha$ 所乘的项为 $\bigtriangledown J(\theta)$ ， $-\bigtriangledown J(\theta)$ 称为下降方向

这里采用的方法是最速下降法， $\alpha$ 称为学习率，太小则学习过慢，太大则容易过学习。 $^{[1]}$

$\alpha$ 的选取：

尝试法，取0.003，0.01，0.03，0.1，0.3，观察 $J(\theta)$ 的曲线下降情况

利用精确搜索（Fibonacci法、黄金分割法和二次插值法）或者不精确法（Wolfe算法）求解 $^{[2]}$

注意点

在用OLS中，遇到变量之间的尺度不同的时候，要用Feature Normalization方法，具体做法如下：

a. Subtract the mean value of each feature from the dataset.

b. After subtracting the mean, additionally scale (divide) the feature values by their respective “standard deviations.” $^{[1]}$

（2）Normal Equations

对于线性回归而言，是有解析解的，即

$w=(X^TX)^{-1}X^Ty$

随着样本的数量和变量的种类的增加，计算量也随之增大。 $^{[1]}$

Ridge Regression

目标： $min ||Xw-y||_2^2+\lambda ||w||_2^2$

优点：解决了multicolinearity

缺点：无法做validable selection，有偏估计

OLS虽然是无偏估计，但是有一个很大的问题，就是会依赖于训练数据而发生过拟合。（也可以从ill-condition角度上理解 $^{[3]}$ ）

当 $w=(X^TX)^{-1}X^Ty$ 中 $X^TX$ 不是满秩的时候， $X^TX$ 不可逆，会存在多个解，如果从许多个解中选取一个的话，可能不是正确的解，容易发生过拟合。

$X^TX$ 不是满秩的情况分为两种（1）数据点少于变量的个数（行不满秩）（2）变量间存在高度的相关性（列不满秩）

当加上了L2规则项后， $w=(X^TX)^{-1}X^Ty$ 变成了 $w=(X^TX+\lambda I)^{-1}X^Ty$ ，就可以直接求逆矩阵了。

$\lambda$ 的选取

（1）根据岭迹图选取，在各个变量随 $\lambda$ 达到平稳时的 $\lambda$

（2）用GCV（Generalized Cross-Validation）来设置

Lasso

目标： $min ||Xw-y||_2^2+\lambda ||w||_1$

优点：可以做validable selection

缺点：不连续，无解析解，不能做group lasso

先来看看正则化项的轮廓。

这里写图片描述

目标函数

$min ||Xw-y||_2^2+\lambda ||w||_1$

与

$min ||Xw-y||_2^2$

$s.t. ||w||_1 \leq t$

可以通过Lagrange multipliers相联起来 $^{[4]}$ （Ridge Regression 同）。

可以得到下列图。

这里写图片描述

图上蓝色表示变量为2个时的损失函数等高线，越接近中心则损失值越小，黄色表示变量的约束范围。左图是L2范数约束，右图是L1范数约束。圆周／菱形边与等高线的交点为在约束下损失最小的 $w_1$ 和 $w_2$ 值，可以看到右图的 $w_1=0$ ，即将变量降到1个变量。这是因为L2范数倾向于w的分量取值尽量均衡，即非零分量个数尽量稠密，而L0范数和L1范数则倾向于w的分量尽量稀疏，即非零分量个数尽可能少 $^{[5]}$ 。

Lasso是一种嵌入式特征选择方法

L1的求解：PGD (Proximal Gradient Descent)

[1] Andrew Ng, Machine Learning course https://www.coursera.org/learn/machine-learning/

[2] 谢可新《最优化方法》

[3] 机器学习中的范数规则化之（一）L0、L1与L2范数 http://blog.csdn.net/zouxy09/article/details/24971995

[4] M.Jordan 《Pattern Recognition and Machine Learning》

[5] 周志华《机器学习》

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[机器怎么老学习]线性回归模型

[机器怎么老学习]线性回归模型先引出机器学习万变不离其宗的公式：损失函数＋惩罚项当损失函数为Square Loss时，所对应的模型就是Linear Regression。预测值ŷ (w,x)=w0+w1x1+…+wnxn=wTx\hat y(w,x)=w_0+w_1x_1+…+w_nx_n=w^TxOrdinary Least Square目标： min||Xw−y||22min ||Xw-y||
复制链接

扫一扫

专栏目录

ep_mashiro CSDN认证博客专家 CSDN认证企业博客

码龄9年

196: 原创

7万+: 周排名

140万+: 总排名

20万+: 访问

: 等级

3653: 积分

130: 粉丝

98: 获赞

43: 评论

240: 收藏

私信

关注

热门文章

分类专栏

Leetcode-Solution 16篇
python 152篇
leetcode 136篇
html 2篇
统计学习方法 24篇
latex 1篇
一锅乱炖 5篇
推荐系统 13篇
mysql 4篇
机器学习 21篇
Array 24篇
Heap 1篇
DC 3篇
TwoPoints 5篇
Math 4篇
Bit 2篇
HashTable 3篇
BinarySear 7篇
Greedy 1篇
DP 3篇
Backtrack 1篇
Design 1篇
面试 33篇
机试 19篇
集成学习 1篇
计算广告 3篇
DFS 1篇
String 1篇
tensorflow 1篇

最新评论

latex 自定义bst文件
mklianhnu: 您好，请问您的问题解决了吗？我也处理不了
coursera公开课——recommender system作业（第二周）
yypSandra: 请问可以共享一下下载的数据集吗，我下载不下来了，谢谢啦
latex 自定义bst文件
qq_40741498: 博主，请问怎么将Fig. 1:改成Fig. 1.呢？这个冒号怎么变成点，我尝试好久了
latex 自定义bst文件
qq_42102915: 您好，我生成.dbj格式后也不知道如何生成.bst文件，请问您已经解决这个问题了吗？我使用的是texstudio，不知道文章中第四条提到的dos窗口是哪个，也不知道如何用tex命令编译.dbj文件。
latex 自定义bst文件
xml98: 您好，我用这个方法得到了.dbj文件，但是无论如何就是弄不出来.bst文件。您遇到过这种情况吗

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。