最小二乘法-多个角度解释

最新推荐文章于 2024-08-02 18:20:17 发布

超级虚空

最新推荐文章于 2024-08-02 18:20:17 发布

阅读量818

点赞数 20

分类专栏：读西瓜书文章标签：最小二乘法算法机器学习

本文链接：https://blog.csdn.net/m0_49376775/article/details/135647622

版权

读西瓜书专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

最小二乘法

最小二乘法

假设采用二范数定义的平方误差来定义损失函数：
$L(w)=\sum\limits_{i=1}^N||w^Tx_i-y_i||^2_2$
展开得到：
$\begin{align} L(w)&=(w^Tx_1-y_1,\cdots,w^Tx_N-y_N)\cdot (w^Tx_1-y_1,\cdots,w^Tx_N-y_N)^T\nonumber\\ &=(w^TX^T-Y^T)\cdot (Xw-Y)=w^TX^TXw-Y^TXw-w^TX^TY+Y^TY\nonumber\\ &=w^TX^TXw-2w^TX^TY+Y^TY \end{align}$
现在要最小化这个值的 $ \hat{w}$ ：
$\begin{align} \hat{w}=\mathop{argmin}\limits_wL(w)&\longrightarrow\frac{\partial}{\partial w}L(w)=0\nonumber\\ &\longrightarrow2X^TX\hat{w}-2X^TY=0\nonumber\\ &\longrightarrow \hat{w}=(X^TX)^{-1}X^TY=X^+Y \end{align}$
这个式子中 $X^TX)^{-1}X^T$ 又被称为伪逆。对于行满秩或者列满秩的 $X$ ，可以直接求解，但是对于非满秩的样本集合，需要使用奇异值分解（SVD）的方法，对 $X$ 求奇异值分解，得到
$X=U\Sigma V^T$
于是：
$X^+=V\Sigma^{-1}U^T$
在几何上，最小二乘法相当于模型（这里就是直线）和试验值的距离的平方求和，假设我们的试验样本张成一个 $p$ 维空间（满秩的情况）： $X=Span(x_1,\cdots,x_N)$ ，而模型可以写成 $f(w)=X\beta$ ，也就是 $x_1,\cdots,x_N$ 的某种组合，而最小二乘法就是说希望 $Y$ 和这个模型距离越小越好，于是它们的差应该与这个张成的空间垂直：
$X^T\cdot(Y-X\beta)=0\longrightarrow\beta=(X^TX)^{-1}X^TY$

向量空间视角

总误差分散在N个样本点上，最小二乘法使得我们拟合出的曲线总误差最小。

第二种解释：将原来的函数改写成：
$w^Tx = x^T\beta$
这就是一个 $p$ 维空间，使得每个样本点尽可能地在这个空间中

每个样本点拟合的值不一定在 $p$ 维空间中，这时候做一个法向量 $Y-x\beta$ ，所有的法向量都和 $X$ 矩阵垂直。

那么现在得出结论：
$x^T(Y-x\beta) = 0$
即：
$\begin{align} X^T(Y-x\beta) &= 0 \\ X^TY &= X^Tx\beta \\ \beta &= (X^Tx)^{-1}X^TY \end{align}$

概率视角

噪声成高斯分布

最幸运的情况：所有数据都在一个直线上。

但是现实生活中的数据有噪声，这里假设噪声的概率服从一个高斯分布。

对于一维的情况，记 $y=w^Tx+\epsilon,\epsilon\sim\mathcal{N}(0,\sigma^2)$ ，那么 $y\sim\mathcal{N}(w^Tx,\sigma^2)$ 。代入极大似然估计(MLE)中：
$\begin{align} L(w)=\log p(Y|X,w)&=\log\prod\limits_{i=1}^Np(y_i|x_i,w)\nonumber\\ &=\sum\limits_{i=1}^N\log(\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}})\\ \mathop{argmax}\limits_wL(w)&=\mathop{argmin}\limits_w\sum\limits_{i=1^N}(y_i-w^Tx_i)^2 \end{align}$
这个表达式和最小二乘估计得到的结果一样。

超级虚空

关注

20
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
最小二乘法-多个角度解释

最小二乘法在机器学习中的应用及其数学推导。从损失函数到最优权重的推导，强调了伪逆和奇异值分解在非满秩样本集中的应用。通过向量空间解释最小二乘法的总误差最小化思想，同时从概率视角考虑噪声服从高斯分布。最后，讨论了权重先验为高斯分布的最大后验估计。最小二乘法及其不同视角的应用和解释。
复制链接

扫一扫