线性回归中 LSE MLE MAP之间的关系

最新推荐文章于 2024-05-29 13:21:48 发布

SoCalledHBY

最新推荐文章于 2024-05-29 13:21:48 发布

阅读量3.7k

点赞数 5

分类专栏：机器学习

本文链接：https://blog.csdn.net/Humanlike_/article/details/89058758

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

记目标方程为 $w^\top X}$ ，其中 ${w}$ 为 ${P}$ 维向量， ${X}$ 为大小为 ${N\times P}$ 的矩阵
${x_i}$ 对应的真实值为 ${y_i}$

一、MLE

MLE（Maximum Likelihood Estimate），也叫极大似然估计，是频率学派中的一种参数估计方法。其主要思想为，通过最大化 ${X}$ 的对数似然函数，得到使当前 ${X}$ 取到真实值的概率最大的参数 ${w}$ 。其公式如下：
${\hat{w} = \arg\max lnP(X|w)}.$

二、MAP

MAP（Maximum A Posteriori Estimation），也叫极大后验估计，是贝叶斯学派中的一种参数估计方法。该方法基于贝叶斯公式：
$\frac{P(X|w)\cdot P(w)}{P(X)}},$ 其中 ${P(w)}$ 为先验概率， ${P(w|X)}$ 为后验概率， ${P(X|w)}$ 为似然。极大后验估计即为通过最大化 ${X}$ 的后验概率，得到最优的参数 ${w}$ 。其公式如下：
${\hat{w} = \arg\max P(w|X)}.$ 由贝叶斯公式可得，
$\propto P(X|w)\cdot P(w)},$ 所以上述公式又可以写成
${\hat{w} = \arg\max P(X|w)\cdot P(w)}.$ 由最大后验估计的公式可以看出，它并没有算出 ${P(w|X)}$ ，所以并没有得到 ${X}$ 的生成模型，这就是最大后验估计与贝叶斯估计的区别。

三、LSE

LSE（Least Square Estimation），也叫最小二乘估计。其公式如下：
$\frac{1}{2} \sum_{i=1}^{n} (w^\top x_i-y_i)^2 = w^\top X^\top-Y^\top},$ ${\hat{w} = \arg\min L(w)}.$ 这里的 ${\frac{1}{2}}$ 是为了微分时消去不必要的参数。
根据该公式，对矩阵微分可得， ${\hat{w}}$ 的解析解为：
${\hat{w} = (X^\top X)^{-1}X^\top Y}.$ 但其中的 ${X^\top X}$ 项并不一定可逆。例如当特征空间的维度大于样本数时，我们无法通过少量的样本来拟合出目标函数，这就会导致过拟合。解决方法通常为降维和正则化，接下来主要介绍正则化。
正则化指的是在损失函数 ${L(w)}$ 中添加一个正则化项（也叫正则罚项或惩罚项）。常用的正则化项有 ${L_1}$ 范数和 ${L_2}$ 范数，分别对应 ${Lasso}$ 回归和 ${Ridge}$ 回归。这里主要介绍 ${L_2}$ 正则。
${L_2}$ 范数的公式为
${||w||_2 = \sqrt{\sum_{i=1}^{n}w_i^2} = \sqrt{w^\top w}},$ 这里使用 ${||w||_2^2}$ 作为正则化项，则添加 ${L_2}$ 正则后的损失函数为
$\frac{1}{2} \sum_{i=1}^{n} (w^\top x_i-y_i)^2 + \lambda w^\top w = (X^\top X + \lambda I)^{-1}X^\top Y}.$ 不难看出， ${X^\top X}$ 为半正定矩阵， ${\lambda I}$ 为单位矩阵，相加后为正定矩阵，一定可逆，所以我们就通过给损失函数添加 ${L_2}$ 正则解决了过拟合的问题。

四、关系

将样本真实值视作预测值加一定程度的噪声 ${\varepsilon}$ ，即
${y_i = f(x_i) + \varepsilon}.$
若假设 ${\varepsilon \sim N(0,\sigma_1^2)}$ ，则MLE的公式可化为
${\hat{w} = \arg\min\frac{1}{2} \sum_{i=1}^{n} (y_i-w^\top x_i)^2},$ 与LSE的公式完全相同。由此可得，不添加正则化项时，LSE即为噪声服从高斯分布时的MLE。
若假设 $\sim N(0,\sigma_2^2)}$ ，则MAP公式可化为
${\hat{w} = \arg\min\ \sum_{i=1}^{n} (y_i-w^\top x_i)^2 + \frac{\sigma_1^2}{\sigma_2^2}||w||_2^2},$ 与LSE的公式完全相同，其中 ${\lambda = \frac{\sigma_1^2}{\sigma_2^2}}$ 。由此可得，添加正则化项时，LSE即为噪声和 ${w}$ 均服从高斯分布时的MAP。