最小二乘与岭回归的概率论解释

最新推荐文章于 2022-08-20 22:22:46 发布

liu_sn

最新推荐文章于 2022-08-20 22:22:46 发布

阅读量1.9k

点赞数

分类专栏：概率论数据分析文章标签：概率论岭回归最小二乘法机器学习

本文链接：https://blog.csdn.net/liu_sn/article/details/79591146

版权

数据分析同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

概率论

4 篇文章 0 订阅

订阅专栏

最近在看《Pattern Regression and Machine Learning》，这里做一点笔记与感想。

背景：

考虑一个多项式拟合问题，如下图，绿线的方程是 $\sin(2\pi x)$ ，蓝点是由绿线并加上噪音（这些噪音是默认符合正态分布的）生成。已知条件是由 $N$ 个点构成的训练集 $\mathbf x = (x_1,...x_N)^T$ ，以及这些点对应的目标值 $\mathbf t=(t_1,...t_N)^T$ 。现在的目标是：根据蓝点来拟合一条曲线，而绿线就是我们要最终拟合的效果。
背景：多项式拟合

问题：

假设我们最终要拟合的曲线是下面这个 $M$ 阶方程，方程如下：

y (x, w) = w_{0} + w_{1} x + w_{2} x^{2} + . . . + w_{M} x^{M} = \sum_{j = 0}^{M} w_{j} x^{j} （ 方 程 1 ）

$y(x, \mathbf w) = w_0+w_1x+w_2x^2+...+w_Mx^M=\sum_{j=0}^Mw_jx^j（方程1）$
其中

w w $\mathbf w$ 是该方程的系数，也是我们最终要求的对象；
通常我们会使用最小二乘法来做误差函数（error function，其是一种狭义的损失函数loss function），其公式如下：

E (w) = 1 2 \sum i = 1 N {y (x n, w) - t n} 2 （ 方 程 2 ）

$E(\mathbf w) =\frac{1}{2}\sum_{i=1}^N\{y(x_n, \mathbf w)-t_n\}^2（方程2）$
其中

tn t n $t_n$ 是这些点真实的数值，即上图中的蓝点，我们的目标就是求得一组

w w $\mathbf w$ 使

E(w) E ( w ) $E(\mathbf w)$ 的值最小；

这似乎是一个天经地义的事情，但它是否是正确的？为什么正确？为什么不能直接将残差累加或是残差的绝对值来作为损失函数，如下式？

E (w) = 1 2 \sum i = 1 N | y (x n, w) - t n |

$E(\mathbf w) = \frac{1}{2}\sum_{i=1}^N\vert y(x_n, \mathbf w)-t_n\vert$
在使用最小二乘作为误差函数的时候，我们缺乏一个对公式的解释，下面本文就从概率论的角度来解释最小二乘背后的原因。

概率论解释最小二乘法：

这里有个假设：一个点的观测值符合以其真实值为均值，方差为 $\beta^{-1}$ ( $\beta^{-1}=\sigma^2$ )的高斯分布；即是默认我们的误差是属于高斯分布的，写成数学表达式即：

p (t | x, w, β) =  (t | y (x, w), β - 1) （ 方 程 3 ）

$p(t|x, \mathbf w,\beta)=\mathcal N(t|y(x,\mathbf w), \beta^{-1})（方程3）$
如果每个

x x $x$ 都是独立同分布的，那么对于观测值

t

$\mathbf t$ 的最大似然函数，即：

p (t | x, w, β) = \prod n = 1 N  (t n | y (x n, w), β - 1) （ 方 程 4 ）

$p(\mathbf t|\mathbf x, \mathbf w, \beta)=\prod_{n=1}^N\mathcal N(t_n|y(x_n, \mathbf w), \beta^{-1})（方程4）$
取对数似然函数，即：

ln p (t | x, w, β) = \sum n = 1 N ln N (t n | y (x n, w), β - 1)

$\ln p(\mathbf t|\mathbf x, \mathbf w, \beta)=\sum_{n=1}^N\mathcal \ln N(t_n|y(x_n, \mathbf w), \beta^{-1})$
即：

ln p (t | x, w, β) = - β 2 \sum n = 1 N {y (x n, w) - t n} 2 + N 2 ln β - N 2 ln (2 π) （ 方 程 5 ）

$\ln p(\mathbf t|\mathbf x, \mathbf w, \beta)=-\frac{\beta}{2}\sum_{n=1}^N\{y(x_n, \mathbf w)-t_n\}^2+\frac{N}{2}\ln\beta-\frac{N}{2}\ln(2\pi)（方程5）$
目标是求方程5的最大值，因为最终要求的是

w w $\mathbf w$ ，因此最终就成了求公式6的最小值，即：

\sum n = 1 N {y (x n, w) - t n} 2 （ 公 式 6 ）

$\sum_{n=1}^N\{y(x_n, \mathbf w)-t_n\}^2（公式6）$ 这个竟然就是一开始的最小二乘法！

总结1：

利用最小二乘法求解本质上是求解似然函数的最大值，并且默认残差属于高斯分布。

概率论解释岭回归：

我们在上面的基础上增加一个先验概率：拟合函数的参数 $\mathbf w$ 属于一个均值为0的多元高斯分布，本质是在限制 $\mathbf w$ 中的各项相差不能太大，即：

p (w | α) =  (w | 0, α - 1 I) = (α 2 π) (M + 1) / 2 e x p {- α 2 w T w} （ 公 式 7 ）

$p(\mathbf w|\alpha) = \mathcal N(\mathbf w|\mathbf 0, \alpha^{-1}\mathbf I)=(\frac{\alpha}{2\pi})^{(M+1)/2}exp\{-\frac{\alpha}{2}\mathbf w^T\mathbf w\}（公式7）$ 对公式7求对数，即：

l n p (w | α) = M + 1 2 l n α 2 π - α 2 W T W （ 公 式 8 ）

$lnp(\mathbf w|\alpha) = \frac{M+1}{2}ln\frac{\alpha}{2\pi}-\frac{\alpha}{2}\mathbf W^{T}\mathbf W（公式8）$ 由于（这是贝叶斯函数的另一种表达方式）：

后 验 概 率 = 先 验 概 率 * 似 然 函 数 （ 公 式 9 ）

$后验概率=先验概率*似然函数（公式9）$ 因此：

p (w | x, t, α, β) 正 比 于 p (t | x, w, β) p (w | α) （ 公 式 10 ）

$p(\mathbf w|\mathbf x,\mathbf t,\alpha,\beta)正比于p(\mathbf t|\mathbf x, \mathbf w,\beta)p(\mathbf w|\alpha)（公式10）$ 现在我们可以通过已知条件，通过后验概率来求出最有可能的

w w $\mathbf w$ ，即求公式10的最大值。取公式10左式的负对数，并将公式5和公式8带入，求公式10的最大值可等价于求下式的最小值，即：

β 2 \sum n = 1 N {y (x n, w) - t n} 2 + α 2 w T w

$\frac{\beta}{2}\sum_{n=1}^N\{y(x_n,\mathbf w)-t_n\}^2+\frac{\alpha}{2}\mathbf w^T\mathbf w$

总结2：

岭回归本质上是求解后验概率的最大值，并且添加的先验条件是参数 $\mathbf w$ 符合多元高斯分布。

极大似然估计(MLE)和极大后验估计(MAP)：

在用概率论解释最小二乘法的时候，我们使用的是MLE，即求出似然函数的最大值；在用概率论解释岭回归时，我们使用的是MAP，即求出后验概率的最大值。

liu_sn

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
最小二乘与岭回归的概率论解释

最近在看《Pattern Regression and Machine Learning》，这里做一点笔记与感想。背景：考虑一个多项式拟合问题，如下图，绿线的方程是sin(2πx)sin⁡(2πx)\sin(2\pi x)，蓝点是由绿线并加上噪音（这些噪音是默认符合正态分布的）生成。已知条件是由NNN个点构成的训练集x=(x1,...xN)Tx=(x1,...xN)T\mathbf x...
复制链接

扫一扫