机器学习(二)线性模型---线性回归

最新推荐文章于 2024-02-01 15:51:09 发布

Dynomite

最新推荐文章于 2024-02-01 15:51:09 发布

阅读量323

点赞数

分类专栏：机器学习文章标签：线性回归正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Dynomite/article/details/80868430

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

机器学习(二)线性模型—线性回归

2.1 线性回归
2.1.1 基本形式：
给定样本 $\textbf{x}=(x_1,x_2,...,x_d)$ ，线性模型通过如下方式计算预测值：

f (x) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b = w \cdot x + b (1)

$f(\textbf{x})=w_1x_1+w_2x_2+...+w_dx_d+b=\textbf{w}\cdot \textbf{x}+b\tag1$
目标函数：

w *, b * = a r g m i n (w,b) \sum i = 1 m (f (x i) - y i) 2 = a r g m i n (w,b) \sum i = 1 m (y i - w \cdot x i - b) 2 (2)

$\begin{align} w^*,b^*&=argmin_{(\textbf{w,b})}\sum_{i=1}^{m}(f(x_i)-y_i)^2\notag\\ &=argmin_{(\textbf{w,b})}\sum_{i=1}^{m}(y_i-\textbf{w}\cdot\textbf{x}_i-b)^2\tag2\\ \end{align}$
改写成矩阵乘法形式：

w * = a r g m i n w ((y - Xw) T (y - Xw)) (3)

$w^*=argmin_w((y-\textbf{Xw})^T(y-\textbf{Xw}))\tag3$
求导:

d ((y - Xw) T (y - Xw)) = d (y - Xw) T (y - Xw) + (y - Xw) T d (y - Xw) = d (Xw) T (y - Xw) - (y - Xw) T d Xw = t r (- 2 (y - Xw) T X d w) (4)

$\begin{align} d((y-\textbf{Xw})^T(y-\textbf{Xw}))&=d(y-\textbf{Xw})^T(y-\textbf{Xw})+(y-\textbf{Xw})^Td(y-\textbf{Xw})\notag \\ &=d(\textbf{Xw})^T(y-\textbf{Xw})-(y-\textbf{Xw})^Td\textbf{Xw} \notag \\ &=tr(-2(y-\textbf{Xw})^T\textbf{X}d\textbf{w} )\tag4 \end{align}$
故：

\partial l o s s \partial w = 2 X T (Xw - y) (5)

$\frac{\partial loss}{\partial \textbf{w}}=2\textbf{X}^T (\textbf{Xw}-y)\tag5$
令

(5) ( 5 ) $(5)$ 等于0可得解析解：

w * = (X T X) - 1 X T y (6)

$w^*=\mathbf{(X^TX)^{-1}X^Ty }\tag6$
值得注意的是

XTX X T X $\mathbf{X^TX}$ 往往不是满秩矩阵

2.1.2 概率角度：
假设我们的真实值与误差函数存在高斯误差，error服从为均值为0，精度为 $\beta$ 的高斯分布即：

y = y (x, w) + e r r o r (7)

$y=y(x,w)+error\tag7$

p (y | x, w, β) = N (y | y (x, w), β - 1) (8)

$p(y|x,w,\beta)=N(y|y(x,w),\beta^{-1})\tag8$

E (y | x) = \int y p (y | x) d x = y (x, w) (9)

$E(y|x)=\int yp(y|x)dx=y(x,w)\tag9$
似然函数可以写为：

p (y | X, w, β) = \prod n = 1 N N (y n | w x n, β - 1) (10)

$p(y|X,w,\beta)=\prod_{n=1}^NN(y_n|wx_n,\beta^{-1})\tag{10}$
对数似然为：

l n p (y | X, w, β) = N 2 ln β - N 2 l n (2 π) - β E D (w) (11)

$lnp(y|X,w,\beta)=\frac{N}{2}\ln\beta-\frac{N}{2}ln(2\pi)-\beta E_D(w)\tag{11}$
其中：

E D (w) = 1 2 \sum n = 1 N (y n - w x n) 2 (12)

$E_D(w)=\frac{1}{2}\sum_{n=1}^N(y_n-wx_n)^2\tag{12}$
从概率角度看，最小二乘法做了一个最大似然估计

2.1.3 正则化：
在原损失函数中加入正则化项 $\Omega(\textbf{w})$ ，可得：

l o s s = 1 2 (y - Xw) T (y - Xw) + Ω (w) (13)

$loss=\frac{1}{2}(y-\textbf{Xw})^T(y-\textbf{Xw})+\Omega(\textbf{w})\tag{13}$
当

Ω(w)=λ2|w| Ω ( w ) = λ 2 |w| $\Omega(\textbf{w})=\frac{\lambda}{2}\textbf{|w|}$ ，称为Lasso回归，无法直接求导可采用坐标下降的方式
当

Ω(w)=λ2wTw Ω ( w ) = λ 2 w T w $\Omega(\textbf{w})=\frac{\lambda}{2}\mathbf{w^Tw}$ ，称为Ridge回归，

w∗=(λI+XTX)−1XTy w ∗ = ( λ I + X T X ) − 1 X T y $w^*=\mathbf{({\lambda}I+X^TX)^{-1}X^Ty }$

2.1.4 相关问题总结

L1、L2 为什么能够降低过拟合？
从概率角度看，最小二乘法我们不知道参数具体的先验分布，采用最大似然估计。L1、L2采用最大后验估计，L1相当于给模型加入了拉普拉斯先验，L2给模型加入了高斯先验，表明我们对参数有一定的先验知识，使用观测数据来修正我们的先验。
从参数的角度，L1使得有些权重变为0 在做的是特征选择，删除那些不重要的可能导致过拟合的参数；而L2将得到较小的参数，若参数很大，样本稍微变动一点，值就有很大偏差，这当然不是我们想看到的，相当于降低每个特征的权重。
L1为什么能进行特征选择(得到稀疏解)，L2为什么能得到光滑解(值较小)？
L1投影到坐标轴上是菱形，损失函数主体是个凸函数，它的等高线均匀地向外扩散。二者切点往往在坐标轴上取到，最优解在坐标轴上取到，而圆形的L2正则的切点一般是在圆周上，能够压缩参数的大小，并不容易得到稀疏解。
L1不可导怎么进行模型的优化？
可以使用坐标轴下降的方法进行优化：
- 延着坐标轴的方向进行参数的更新，不依赖于梯度
- 每次更新固定m-1个参数，只对一个参数进行优化，求局部极小值点
- 对于可微凸函数，如果参数的一个解在对于函数在某个坐标轴上能达到最小值，那么这个参数就是f的全局最小点
- 坐标轴下降法在每次迭代中在当前点处沿一个坐标方向进行一维搜索，固定其他的坐标方向，找到一个函数的局部极小值。而梯度下降总是沿着梯度的负方向求函数的局部最小值

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。