线性回归的数学原理-机器学习-白板推导笔记3

最新推荐文章于 2024-08-06 21:55:16 发布

Veritaswhs

最新推荐文章于 2024-08-06 21:55:16 发布

阅读量412

点赞数

分类专栏：机器学习的灵魂-数学文章标签：线性代数概率论矩阵几何学机器学习

本文链接：https://blog.csdn.net/weixin_43398590/article/details/104902932

版权

机器学习的灵魂-数学专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

线性回归的数学原理-机器学习-白板推导笔记3

线性回归的数学原理-机器学习-白板推导笔记3

所有内容均为从www.bilibili.com/video/av70839977的视频课中总结，并添加了一些浅薄的个人理解。本人小白，如有错误，欢迎指正。

最小二乘法及其几何意义

我们所有的数据 $D=\{(x_1,y_1),(x_2,y_2),\cdots, (x_n,y_n)\}$
其中 $x_i \in \mathbb{R}^p, y\in \mathbb{R},i=1,2,\cdots,N$
$(x_1,x_2,\cdots,x_N)^T = \begin{pmatrix} x_1^T\\ x_2^T\\ \vdots\\ x_N^T \end{pmatrix}=\begin{bmatrix} x_{11} & x_{12}&\cdots&x_{1p} \\ x_{21} & x_{22}&\cdots&x_{2p} \\ \vdots & \vdots &&\vdots\\ x_{N1} & x_{N2}&\cdots&x_{Np} \end{bmatrix}_{N\times p}$

$Y=\begin{pmatrix} y_1\\ y_2\\ \vdots\\ y_n \end{pmatrix}_{N\times 1}$
其中，我们的要拟合的直线 $y=w^Tx + w_0x_0$ ，后面的项为偏置项。为了简化我们的式子，我们把 $w_0x_0$ 这一项归到 $w^Tx$ 中。

最小二乘估计：

$\begin{aligned} L(w)& = \sum_{i=1}^N||w^Tx_i-y_i||^2 \text{(2范数的平方)}\\ &= \sum_{i=1}^N(w^Tx_i-y_i)^2 \text{(由于是一个数所以可以写成这个形式)}\\ &=(w^Tx_1-y_1, w^Tx_2-y_2,\cdots,w^Tx_N-y_N)\begin{pmatrix} w^Tx_1-y_1\\ w^Tx_2-y_2\\ \vdots\\ w^Tx_N-y_N \end{pmatrix}\text{(分解成两个向量的乘积)}\\ &=((w^Tx_1,w^Tx_2,\cdots,w^Tx_n)-(y_1,y_2,\cdots,y_n))\begin{pmatrix} w^Tx_1-y_1\\ w^Tx_2-y_2\\ \vdots\\ w^Tx_N-y_N \end{pmatrix}\\ &=(w^T(x_1,x_2,\cdots,x_n)-(y_1,y_2,\cdots,y_n))\begin{pmatrix} w^Tx_1-y_1\\ w^Tx_2-y_2\\ \vdots\\ w^Tx_N-y_N \end{pmatrix}\\ &=(w^TX^T-Y^T)(Xw-Y)\text{(右边的项由左边进行转置可得)}\\ &=w^TX^TXw-w^TX^TY-Y^TXw+Y^TY(\text{其中}w_{p\times1},X_{p\times N},Y_{N\times 1})\\ &=w^TX^TXw-2w^TX^TY+Y^TY(因为其中两不是向量而是数字所以转置等于自身因此可以合并) \end{aligned}$

我们需要 $L (w)$ 取得最小值，因为 $L (w)$ 关于 $w$ 是一个凸函数所以当 $L (w)$ 关于 $w$ 的导数为零时，得到 $w$ 的最优解。
$\hat{w}=argmin L(w)$ $令\frac{\partial L}{\partial w}=2X^TXw-2X^TY=0$ 得到 $X^TXw=X^TY \Rightarrow \hat{w}=(X^TX)^{-1}X^TY$
分析：这个式子中 $X^TX)^{-1}X^T$ 被称为伪逆 $X^+$ 。上述过程中涉及到对 $X^TX$ 这个矩阵求逆，然而在实际任务中 $X^TX$ 可能不是满秩矩阵，那么就不能直接进行求逆的操作，在机器学习任务中，常见的做法是引入正则化项。

几何解释

几何解释-1

在这里插入图片描述
由最小二乘法的式子 $\sum_{i=1}^N||w^Tx_i-y_i||^2$ 结合图可知，我们的最小二乘法相当于求每一个点到直线的距离，把误差分散在每一个点上，求一个总误差最小。

几何解释-2

在这里插入图片描述
由 $f(w)=w^Tx$ ，其中 $f(w)=w^Tx=x^T\beta$ ，我们把 $(x^T)_{1\times p}$ 想象成一个 $p$ 维的系数。 $(X^T)_{N\times p}$ 中数据一共有 $N$ 个系数，都属于 $p$ 维子空间。其中 $Y$ 的数据形成的向量不在 $p$ 维子空间内,除非所有的样本点都在我们的 $f(w)=w^Tx$ 直线上。因为噪声不可避免，于是 $Y$ 不在 $p$ 维空间之内，所求的就是 $Y$ 在子空间的投影。以2维子空间为例，图中 $x_1$ 代表第一维， $x_2$ 代表第二维。我们需要 $Y$ 距离我们的 $p$ 维子空间最近，而图中的投影就是我们要找的 $f(\beta)$ ，而 $f(\beta)$ 是一个 $x_1,\cdots,x_n$ 的线性组合， $f(\beta)=X\beta$ 。而 $Y-f(\beta)$ 就是我们要找的法向量。所以 $X^T(Y-X\beta)=0 \Rightarrow X^TY=X^TX\beta \Rightarrow \beta = (X^TX)^{-1}X^TY$

概率视角线性回归

我们所有的数据 $D=\{(x_1,y_1),(x_2,y_2),\cdots, (x_n,y_n)\}$
其中 $x_i \in \mathbb{R^p}, y\in \mathbb{R},i=1,2,\cdots,N$
$(x_1,x_2,\cdots,x_N)^T = \begin{pmatrix} x_1^T\\ x_2^T\\ \vdots\\ x_N^T \end{pmatrix}=\begin{vmatrix} x_{11} & x_{12}&\cdots&x_{1p} \\ x_{21} & x_{22}&\cdots&x_{2p} \\ \vdots & \vdots &&\vdots\\ x_{N1} & x_{N2}&\cdots&x_{Np} \end{vmatrix}_{N\times p}$

$Y=\begin{pmatrix} y_1\\ y_2\\ \vdots\\ y_n \end{pmatrix}_{N\times 1}$
最小二乘估计： $L(w)=\sum_{i=1}^N||w^Tx_i-y_i||^2$
$\hat{w}=argmin\ L(w)=(X^TX)^{-1}X^TY$
因为数据中都是有噪声的我们设 $\varepsilon \sim N(0,\sigma^2),y=f(w)+\varepsilon,f(w)=w^Tx,y=w^Tx+\varepsilon$
$y|x,w\sim N(w^Tx,\sigma^2)$

最大似然估计MLE

已知样本之间是相互独立的, $p(y|x,w)=\frac{1}{\sqrt{2\pi}\sigma}\exp^{\{-\frac{(y-w^Tx)^2}{2\sigma^2}\}}$

$\begin{aligned} \mathcal{L(w)}&=log^{P(Y|x,w)}\\ &=log^{\prod_{i=1}^NP(y_i|x_i,w)}\\ &=\sum_{i=1}^N log^{P(y_i|x_i,w)}\\ &=\sum_{i=1}^N \left(log^{\frac{1}{\sqrt{2\pi}\sigma}}+log^{exp^{\{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\}}}\right)\\ &=\sum_{i=1}^N \left(log^{\frac{1}{\sqrt{2\pi}\sigma}}-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\right) \end{aligned}$
$\begin{aligned} \hat{w}&=\argmax \limits_w \mathcal{L}(w)(由于\sigma是常数)\\ &=\argmax \limits_w \sum_{i=1}^N -\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\\ &=\argmin \limits_w \sum_{i=1}^N(y_i-w^Tx_i)^2 \end{aligned}$
可以看到结果和最小二乘法得到的是一样的。

线性回归正则化

Loss Function: $L(w)=\sum_{i=1}^N||w^Tx_i-y_i||^2$ $\hat{w}=(X^TX)^{-1}X^TY$ $X_{N\times p}N个样本，x_i\in \mathbb{R}^p,N\gg p$
这个时候 $X^TX$ 不满秩，所以也就不可逆，在现象上就会出现过拟合。
解决方法：
(1)加数据
(2)特征选择/特征提取(PCA)
(3)正则化
正则化框架 $\argmin \limits_w(L(w)+\lambda P(w))$
L1正则化(Lasso): $P(w)=||w||_1$
L2正则化(Ridge)岭回归也叫权重衰减: $P(w)=||w||^2_2$

岭回归-频率角度

先求解损失函数：
$\begin{aligned} \mathcal{J}(w)&=\sum_{i=1}^N||w^Tx_i-y_i||^2+\lambda w^Tw\\ &=(w^TX^T-Y^T)(Xw-Y)+\lambda w^Tw\\ &=w^TX^TXw-2w^TX^TY+Y^TY+\lambda w^Tw\\ &=w^T(X^TX+\lambda I)w-2w^TX^TY+Y^TY \end{aligned}$
我们的目标为：
$\hat{w}=\argmin \limits_w \mathcal{J}(w)$
进行矩阵求导可得：
$\frac{\partial \mathcal{J}(w)}{\partial w}=2(X^TX+\lambda I)w-2X^TY = 0$

$\hat{w}=(X^TX+\lambda I)^{-1}X^TY$
这时我们的 $(X^TX+\lambda I)$ 矩阵就是可逆的了，因为 $X^TX$ 是半正定矩阵，所以加了一个正的对角矩阵一定是正定的，所以就可逆了。 $(因为正定的充分必要条件是其顺序主子式全大于 0 ，若矩阵 A 正定，则必有 ∣ A ∣ (矩阵 A 的行列式) > 0 ，所以矩阵 A 可逆)$
tips：我们发现了一个神奇的事情，原来线性回归过拟合可以用矩阵的不可逆来解释，我们常用的正则化竟然是让原本不可逆的矩阵变得可逆。

岭回归-贝叶斯角度

$f(w)=w^Tx,y=f(w)+\varepsilon$ $w\sim N(0,\sigma^2_0)(这是对w的先验),\varepsilon \sim(0,\sigma^2)(\varepsilon 是噪声,假设服从正态)$ $y|x,w\sim N(w^Tx,\sigma^2)$ $P(w|y)=\frac{P(y|w)P(w)}{p(y)}$
在贝叶斯统计学中，“最大后验概率估计”是后验概率分布的众数。利用最大后验概率估计可以获得对实验数据中无法直接观察到的量的点估计。它与最大似然估计中的经典方法有密切关系，但是它使用了一个增广的优化目标，进一步考虑了被估计量的先验概率分布。
MAP(最大后验估计):
$\begin{aligned} MAP:\hat{w}&=\argmax \limits_w \sum_{i=1}^N P(w|y_i,x_i)\\ &=\argmax \limits_w \sum_{i=1}^N P(y|w,x_i)P(w)(因为p(y_i)的值与w无关所以不用考虑)\\ &=\argmax \limits_w \sum_{i=1}^N \frac{1}{\sqrt{2\pi}\sigma}\exp^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}}\frac{1}{\sqrt{2\pi}\sigma_0}\exp^{-\frac{||w||_2^2}{2{\sigma_0}^2}}\\ &=\argmax \limits_w \sum_{i=1}^N \frac{1}{\sqrt{2\pi}\sigma}\frac{1}{\sqrt{2\pi}\sigma_0}\exp^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}-\frac{||w||_2^2}{2{\sigma_0}^2}}\\ &=\argmax \limits_w \sum_{i=1}^N \log^{\left(\frac{1}{\sqrt{2\pi}\sigma}\frac{1}{\sqrt{2\pi}\sigma_0}\right)}+\left(-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}-\frac{||w||_2^2}{2{\sigma_0}^2} \right)(\sigma 是超参数但是我们可以当做常数)\\ &=\argmin \limits_w \sum_{i=1}^N \frac{(y_i-w^Tx_i)^2}{2\sigma^2}+\frac{||w||_2^2}{2{\sigma_0}^2}\\ &=\argmin \limits_w \sum_{i=1}^N (y_i-w^Tx_i)^2+\frac{\sigma^2}{\sigma^2_0}||w||_2^2 \end{aligned}$
这里的 $\frac{\sigma^2}{\sigma^2_0}$ 就相当于上面正则化的 $\lambda$ 。前一项相当于Loss，后一项相当于penalty。

总结

$LSE(最小二乘估计)\Longleftrightarrow MLE(极大似然估计)(noise为Guassian Dist)$
$\Longleftrightarrow MAP(最大后验估计)(noise为Guassian Dist，先验也是Guassian Dist)$

附录-相关知识（送给和我一样的小白）

矩阵求导

方法1： $\frac{\partial x^TAx}{\partial x}=(A+A^T)x$
本文中： $\frac{\partial w^T(X^TX+\lambda I)w}{\partial w}=[(X^TX+\lambda I)+(X^TX+\lambda I)^T]w=2(X^TX+\lambda I)w$
方法2： $\frac{\partial xA}{\partial x}=A(在分母布局的情况下,即x^T和y)$
本文中： $\frac{\partial 2w^TX^TY}{\partial w}=2X^TY$
矩阵求导原理，之后有机会会补充。

正定矩阵

正定矩阵的定义： $一个对称的n\times n矩阵A，若对\mathbb{R}^n中的所有非零向量x，x^TAx>0，则它为正定的。$
正定矩阵的性质： $若 A 为一对称正定矩阵，则 d e t (A) > 0$
所以正定矩阵是非奇异矩阵也是可逆矩阵。

定理证明: $A为一个对称的n\times n矩阵A\models A可以分解为一个乘积B^TB,其中B为某非奇异矩阵\Longrightarrow A为正定的$ （其实两个方向都成立，本文只需要一个方向）
假设 $A=B^TB$ ,其中 $B$ 是非奇异的，令 $x$ 为 $R^n$ 中的任意非零向量，令 $y = B x$ ，由于 $B$ 为非奇异的，所以 $y\ne \mathbf{0}$ ，由此可知 $x^TAx=x^TB^TBx=y^Ty=||y||^2>0$ 因此 $A$ 为正定的。

下面解决我们的问题:
我的矩阵是 $X^TX,(X^TX)^T=X^TX$ 所以这是一个对称矩阵，如果 $X$ 是满秩的那个用上述定理就可以证明出 $X^TX$ 是正定矩阵，如果不是的话，那么矩阵不可逆。加了正则化的矩阵为 $X^TX+\lambda I$ $x^T(X^TX+\lambda I)x=x^TX^TXx+x^T\lambda Ix=||y||^2+\lambda||x||^2>\lambda||x||^2>0$ 这就是为什么加了正则化后矩阵可逆

Veritaswhs

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
线性回归的数学原理-机器学习-白板推导笔记3

这里写自定义目录标题机器学习-白板推导笔记3-线性回归最小二乘法及其几何意义最小二乘估计：几何解释功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchar...
复制链接

扫一扫

专栏目录