线性回归——最小二乘法

最新推荐文章于 2024-01-08 01:26:34 发布

对不起该昵称已存在

最新推荐文章于 2024-01-08 01:26:34 发布

阅读量223

点赞数

分类专栏：模式识别与机器学习

本文链接：https://blog.csdn.net/qq_43326818/article/details/112655891

版权

模式识别与机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

线性回归——最小二乘法

一、绪论
二、线性回归及其几何意义
- 1、从图看线性回归
三、LSE频率视角（统计学习方法）
四、LSE的正则化
五、LSE概率视角（贝叶斯角度）
六、L1 VS L2

一、绪论

机器学习的本质就是要学到模型中的参数，根据看待参数的方法的不同，机器学习可以分为频率派和概率派，即统计机器学习和概率图模型。

数据： $X=(x_1~~x_2~~x_3~...~x_N)$
$=$ $\begin{pmatrix} x_{11}~~x_{12}~~x_{13}~...~x_{1n}\\x_{21}~~x_{22}~~x_{23}~...~x_{2n}\\...\\x_{N1}~~x_{N2}~~x_{N3}~...~x_{Nn}\end{pmatrix}$
参数： $\theta$

1、频率派——统计机器学习

认为 $\theta$ 是未知的常量，使用MLE（最大似然估计），MLE即再当前参数下使得概率最大。
MLE： $\underset{\theta~~~~~~~~~~~}{arg~max}~P(X|\theta)$

2、概率派——概率图模型

认为 $\theta$ 是随机变量，有概率分布函数 $p(\theta)$ ，使用MAP（最大后验概率估计）。
MAP: $\underset{\theta~~~~~~~~~~~~}{arg~max}~P(\theta|X)=\frac{P(X|\theta)p(\theta)}{P(X)}\\ \\~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~=\frac{P(\theta|X)}{\int_\theta P(X|\theta)p(\theta)d\theta}$

MAP估计参数的时候，一般不考虑分母，对 $\theta$ 积分，分母可以视为一个常数，MAP也称为贝叶斯估计。

贝叶斯预测，根据X和 $\theta$ 对 $\hat{x}$ 进行预测：
$P(\hat{x}|X)=\int_\theta P(\hat{x},\theta|X)d\theta \\ ~~~~~~~~~~~~~=\int_\theta P(\hat{x}|\theta)p(\theta|X)d\theta$

贝叶斯决策中， $\theta$ 将未知 $\hat{x}$ 与已知 $X$ 联系起来。在贝叶斯决策中，因为要计算具体的概率，所以要求出 $P(\theta|X)$ ，所以计算 $P (X)$ ，即涉及积分计算。

3、关系

$\theta$ 的先验概率 $p(\theta)$ 将似然函数 $P(x|\theta)$ 与后验概率 $P(\theta|x)$ 联系起来。

4、小结

频率派——统计机器学习：
（1）模型（可能与概率有关）
（2） $l o s s f u n c t i o n$
（3）优化问题

贝叶斯派——概率图模型：本质为求积分。

二、线性回归及其几何意义

1、从图看线性回归

从图看线性回归如上图所示有一些样本点，找一条直线去拟合这些样本点。
$Data=\{(x_1,y_1),(x_2,y_2),(x_3,y_3),...(x_N,y_N)\},其中x_i\in R^n,y_i\in R,x_i=(x_{i1}~~x_{i2}~~x_{i3}~...~x_{in})^T$ 。
目标： $f(x_i) =w^Tx_i+b，$ 写为增广形式，则为 $f(x_i)=w^Tx_i$ 。
数据矩阵表示： $X=(x_1~~x_2~~...~~x_N)^T$
$=\begin{pmatrix} x_{11}~~~x_{12}~~~x_{13}~~~....~~~x_{1n}~~~1\\x_{21}~~~x_{22}~~~x_{23}~~~....~~~x_{2n}~~~1\\~~~~~~~~~~~~....\\x_{N1}~~~x_{N2}~~~x_{N3}~~~....~~~x_{Nn}~~~1 \end{pmatrix}$
一行为一个样本，X的维度为N*(n+1)。
$Y=(y_1~~~y_2~~~...~~~y_N)^T$ 。

LSE（最小二乘估计）：线性回归，思想即找到 $l o s s f u n c i t o n$ ，最小化 $l o s s f u n c t i o n$ 。
$l o s s f u n c t i o n$ : $L(w)=\sum\limits_{i=1}^N||f(x_i)-y_i||^2 \\ =\sum\limits_{i=1}^N||w^Tx_i-y_i||^2\\=\sum\limits_{i=1}^N(w^Tx_i-y_i)(w^Tx_i-y_i)\\=\begin{pmatrix}w^Tx_1-y_1~~~w^Tx_2-y_2~~~...~~~w^Tx_N-y_N \end{pmatrix}\begin{pmatrix} w^Tx_1-y_1\\w^Tx2-y2\\...\\w^Tx_N-y_N\end{pmatrix}\\=(w^TX^T-Y^T)(w^TX^T-Y^T)^T\\=w^TX^TXw-2w^TX^TY+Y^TY$

目标：最小化loss function
$\Rightarrow \underset{\theta~~~~~~~~~~}{arg~min} L(w)\\ \Rightarrow \frac{\partial L(w)}{\partial w}=0\\ \Rightarrow w^*=(X^TX)^{-1}X^TY$
从 $l o s s f u n c t i o n$ 看，LSE考虑了每个样本的误差，可以理解为将误差平摊到所有的样本上。

从几何角度看LSE： $x\in R^n,x=(x^1,x^2,x^3,...,x^n)$ ，则样本的n维构成一个平面，而 $y$ 不在该平面上（若在，则 $y$ 可以直接由 $x$ 的各维组成，无误差，则完全拟合，也就不存在误差了），所以 $y$ 在 $x$ 张成的平面外，而 $f (x)$ 是 $x$ 各维线性组合，所以在该平面内。
因此:
LSE $\Rightarrow$ 找到 $f (x)$ 使得向量 $y$ 与 $f (x)$ 之间的距离最短
$\Rightarrow$ $y$ 到平面的投影为 $f (x)$ ，此时距离最短
$\Rightarrow$ $y - f (x)$ 垂直于平面的任意向量
$\Rightarrow$ $X^T(Y-Xw)=0$
$\Rightarrow w^*=(X^TX)^{-1}X^TY$
最优解不一定存在，因为可能逆不存在。
LSE的几何角度看，将误差分摊到每个样本的每一维，因为每一维共同张成的平面，而该平面决定了于 $y$ 的误差，所以相当于将误差平摊到每一维。

三、LSE频率视角（统计学习方法）

参数： $w$ ，视为未知的常量
结论：LSE等价于高斯噪声的MLE
证明：数据同（二），有高斯噪声 $\epsilon服从N(0,\sigma^2)，即y_i=f(x_i)+\epsilon，则y_i服从N(f(x_i),\sigma^2)。$
MLE： $\underset{w~~~~~~~~~~}{arg max} P(Y|w)\\=\underset{w~~~~~~~~~~}{argmax}\prod\limits_{i=1}^NP(y_i|w)\\\Rightarrow\underset{w~~~~~~~~~}{argmax}\sum\limits_{i=1}^NlogP(y_i|w)\\其中，P(y_i|w)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i-f(x_i))^2}{2\sigma^2})\\\Rightarrow\underset{w~~~~~~~~~~~}{argmax}\sum\limits_{i=1}^N(-\frac{(y_i-f(x_i))^2}{2\sigma^2})\\\Rightarrow\underset{w~~~~~~~~~~}{argmin}\sum\limits_{i=1}^N((y_i-f(x_i))^2)\\ \Rightarrow\underset{w~~~~~~~~~}{argmin}\sum\limits_{i=1}^N((y_i-w^Tx_i)^2)$
与LSE的 $l o s s f u n c t i o n$ 相同

四、LSE的正则化

1、过拟合

（1）LSE中需要有N>>n，即样本数量需远远大于数据的维度，否则会产生过拟合的问题。
（2）解决过拟合的方法：增加数据、特征选择\特征提取、正则化。

2、正则化

$\underset{w~~~~~~~~~~~}{argmin}[L(w)+\lambda P(w)]\\其中，L(w)为loss function，P(w)为正则项$
根据正则项的不同，可以分为：
（1） $lasso:L1回归，P(w)=||w||_1$
（2） $岭回归：L2回归，P(w)=||w||_2$

3、LSE+正则化

岭回归：
$J(w)=\sum\limits_{i=1}^N||y_i-f(x_i)||_2^2+||w||_2^2\\\Rightarrow minJ(w)\\\Rightarrow min(w^TX^TXw-2w^TX^TY+Y^TY+\lambda w^Tw\\\Rightarrow \frac{\partial J(w)}{\partial w}=0\\\Rightarrow w^*=(X^TX+\lambda I)^{-1}X^TY$
最优解一定存在，因为逆一定存在。

五、LSE概率视角（贝叶斯角度）

参数： $w$
结论：LSE+L2等价于 $p(w)=N(0,\sigma_0^2)$ 的MAP。
回顾：MLE与MAP有关系，两者通过参数联系，所以在这里使用了MLE中的分布有高斯噪声。
假设：噪声 $\epsilon$ 服从 $N(0,\sigma^2),y_i=f(x_i)+\epsilon,w服从N(0,\sigma_0^2)。$
MAP：
$J(w)=max~P(X|w)P(w)\\\Rightarrow max~logP(X|w)P(w)\\\Rightarrow max~log\prod\limits_{i=1}^NP(x_i|w)+logP(w)\\\Rightarrow~max\sum\limits_{i=1}^NlogP(x_i|w)+logP(w)\\\Rightarrow max(\sum\limits_{i=1}^N\frac{(-(y_i-f(x_i))^2)}{2\sigma^2})-\frac{w^Tw}{2\sigma_0^2}\\\Rightarrow min(\sum\limits_{i=1}^N(y_i-f(x_i))^2)+\frac{\sigma^2}{\sigma_0^2}||w||_2^2$
令 $\lambda=\frac{\sigma^2}{\sigma_0^2}，则MAP为LSE+L2$