机器学习-白板推导系列(一)-绪论（机器学习的MLE(最大似然估计)和MAP(最大后验估计)）

最新推荐文章于 2024-04-18 10:46:43 发布

Paul-Huang

最新推荐文章于 2024-04-18 10:46:43 发布

阅读量720

点赞数 3

分类专栏：机器学习-白板推导文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/huang1024rui/article/details/112093850

版权

机器学习-白板推导专栏收录该内容

23 篇文章 43 订阅

订阅专栏

频率学派 - Frequentist - Maximum Likelihood Estimation (MLE，最大似然估计)
贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP，最大后验估计)

现代机器学习的终极问题都会转化为解目标函数的优化问题，MLE和MAP是生成这个函数的很基本的思想，因此我们对二者的认知是非常重要的。这次就和大家认真聊一聊MLE和MAP这两种estimator。

1.频率学派和贝叶斯学派

1.1 抽象理解

频率学派和贝叶斯学派对世界的认知有本质不同：

频率(概率)学派认为世界是确定的，有一个本体，这个本体的真值是不变的，我们的目标就是要找到这个真值或真值所在的范围。

概率研究的问题是，已知一个模型和参数，怎么去预测这个模型产生的结果的特性（例如均值，方差，协方差等等）。举个例子，我想研究怎么养猪（模型是猪），我选好了想养的品种、喂养方式、猪棚的设计等等（选择参数），我想知道我养出来的猪大概能有多肥，肉质怎么样（预测结果）。
而贝叶斯学派认为世界是不确定的，人们对世界先有一个预判，而后通过观测数据对这个预判做调整，我们的目标是要找到最优的描述这个世界的概率分布。

统计研究的问题则相反。统计是，有一堆数据，要利用这堆数据去预测模型和参数。仍以猪为例。现在我买到了一堆肉，通过观察和判断，我确定这是猪肉（这就确定了模型。在实际研究中，也是通过观察数据推测模型是／像高斯分布的、指数分布的、拉普拉斯分布的等等），然后，可以进一步研究，判定这猪的品种、这是圈养猪还是跑山猪还是网易猪，等等（推测模型参数）。

一句话总结： $\color{red}概率是已知模型和参数，推数据。统计是已知数据，推模型和参数。$

1.2 求解 $\theta$ 的角度

假设有一堆数据 $X$ ，其中 $X=\left ( x_{1},x_{2},...,x_{n} \right )^{T}$ ，每个 $x_{i}$ 都是一个数据样本，都是i,i,d，有一个参数 $\theta$ ，使得每个数据样本 $x$ 都服从概率分布 $x\sim p\left ( x|\theta \right )$ 。

1.2.1 频率派估计（统计机器学习）

频率派认为 $\theta$ 是 $\color{red}未知常量$ ，而 $X = (x_1, x_2, ..., x_n)$ 是 $\color{red}随机变量$ ，我们需要通过数据 $X$ 来估计出 $\theta$ ，常用的方式是采用最大似然估计（Maximum Likelihood Estimate，MLE），也叫极大似然估计。
$P\left ( X|\theta \right )=\prod_{i=1}^{n}p(x_{i}|\theta )\tag{1.1}$
则：
$\begin{array}{r} \hat{\theta}_\text{MLE} &= \underset{\theta}{argmax} P(X| \theta) \\ & = \underset{\theta}{argmax} \prod_{i=1}^{n} P(x_i| \theta) \\ &= \underset{\theta}{argmax} \sum_{i=1}^{n} \log P(x_i| \theta) \\ &= \underset{\theta}{argmin} - \sum_{i=1}^{n} \log P(x_i| \theta) \end{array}\tag{1.2}$

最后这一行所优化的函数被称为 $\color{red}Negative\;Log\;Likelihood (NLL)$ ，这个概念和上面的推导是非常重要的！
给定一些数据，求对应的高斯分布时，我们经常会算这些数据点的均值和方差然后带入到高斯分布的公式，其理论依据是优化NLL;
深度学习做分类任务时所用的cross entropy loss，其本质也是MLE.

我们只要求解上述等式，就可以得到最优解 $\theta$ ，一般的步骤是把上式看作损失函数，进行梯度下降等方法，最后逼近得到 $\theta$ 。这个方式就是我们采用机器学习方法来解决问题的一般流程：

根据问题建立算法模型
设定损失函数loss function
通过优化方法来使损失函数最小，得到最优解参数 $\theta$

1.2.2 贝叶斯派估计（概率图模型）

定义
贝叶斯派认为 $\theta$ 也是一个 $\color{red}随机变量$ ，并且 $\theta\sim p\left (\theta \right )$ ，其中 $p\left (\theta \right )$ 是一个 $\color{red}先验概率$ 。我们知道贝叶斯公式如下：
$P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{P(X)} \tag{1.3}$
$P(X)=\int_{\theta}^{}P(X,\theta )d{\theta }=\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta } \tag{1.4}$
$P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta }} \tag{1.5}$
其中：
- $P(\theta |X)$ 为 $\color{red}后验概率$ ，也就是我们要得到的东西，是最终的参数分布。
- $P(\theta )$ 为 $\color{red}先验概率$ ，指的是在没有观测到任何数据时对 $\theta$ 的预先判断。
- $P(X|\theta)$ 为 $\color{red}似然$ ，是假设 $\theta$ 已知后我们观察到的数据应该是什么样子的。
这里有两点值得注意的地方：
$\color{red}1. 随着数据量的增加，参数分布会越来越向数据靠拢，先验的影响力会越来越小;$
$\color{red}2. 如果先验是uniform distribution（均匀分布），则贝叶斯方法等价于频率方法。$ 因为直观上来讲，先验是uniform distribution本质上表示对事物没有任何预判。
最大后验估计（Maximum a Posteriori estimation，MAP）
同样的，假设数据 $x_1, x_2, ..., x_n$ 是i.i.d.的一组抽样， $X = (x_1, x_2, ..., x_n)$ 。那么MAP对 $\theta$ 的估计方法可以如下推导：
$\begin{array}{l}\hat{\theta}_\text{MAP} &= \underset{\theta}{argmax} P(\theta | X) \\ &= \underset{\theta}{argmin} (-\log P(\theta | X) )\\ & = \underset{\theta}{argmin}( -\log P(X|\theta) - \log P(\theta) + \log P(X)) \\ &= \underset{\theta}{argmin}( -\log P(X|\theta ) - \log P(\theta) ) \end{array}\tag{1.6}$
其中:
1. $\color{red}第二行到第三行使用了贝叶斯定理，第三行到第四行P(X)可以丢掉因为与\theta无关。$
2. $\color{red}注意-\log P(X|\theta )其实就是NLL$
3. $\color{red}MLE和MAP在优化时的不同就是在于先验项-\log P(X|\theta)。$
先验项
假定先验是一个高斯分布，即
$P(\theta) = \text{constant} \times e^{-\frac{\theta^2}{2\sigma^2}}\tag{1.7}$
那么，
$-\log P(\theta) = \text{constant} + \frac{\theta^2}{2\sigma^2}\tag{1.8}$
即： $\color{red}在MAP中使用一个高斯分布的先验等价于在MLE中采用L_2的regularizaton！$
贝叶斯估计
贝叶斯估计的实质是求后验概率，关键是求下式中分母的积分：
$P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d{\theta }} \tag{1.9}$
常用的是 $\color{red}蒙特卡洛方法$ 求解积分；采样积分方法 $\color{red}MCMC$ 也有很多应用。
贝叶斯预测
已知观测集有 $N$ 个样本，每个样本都是 $p$ 维向量。
$X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}\tag{1.10}$
新来了一个数据 $x_{new}$ ，通过 $\theta$ 作为中间参数，估计新的后验概率：
$\begin{array}{l}p(x_{new}|X)&=\int\limits _{\theta}p(x_{new},\theta|X)d\theta\\ &= \int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|X)d\theta \end{array}\tag{1.11}$

2. 过拟合

频率学派——最大似然估计MLE
贝叶斯学派——最大后验估计MAP

2.1 频率学派过拟合

最大似然估计有过拟合的现象，频率派的缓解方法：

（a）通过添加正则化项；
（b）模型集成；

注意： $\color{red}过拟合是频率派才有的说法$ 。

2.1 贝叶斯派过拟合

贝叶斯派用两种手段克服了过拟合：

（1）引入先验，即做最大后验估计；【与（a）等价】
（2）计算后验分布的积分（相当于给不同模型进行加权组合）【与（b）等价】：
MAP，解决了过拟合问题。不过却依旧求得了一个固定的参数 $\theta$ 。

2.3. MLE 和 MAP 过拟合

MLE 和 MAP 在优化时的不同就是： $\color{red}MAP多了一个先验项。$
下面以回归问题为例，对误差的分布做两种不同的假设，并对模型先验也做两种不同的假设，得到四种不同形式的损失函数（等价于MAP的结果，或者说等价于正则化后MLE的结果）：
在这里插入图片描述
正则化的本质在于认为地向模型中融入先验，或者说，认为地对模型分布（复杂度）进行了约束。

$\color{red}在MAP中使用一个“高斯分布的先验” 等价于在MLE中采用 “L2正则化”；$
$\color{red}在MAP中使用一个“拉普拉斯分布的先验” 等价于在MLE中采用 “ L1正则化”；$
$\color{red}深度学习做分类任务时所用的cross\;entropy\;loss，其本质也是MLE。$

参考：

详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解
聊一聊机器学习的MLE和MAP：最大似然估计和最大后验估计
频率派VS贝叶斯派
机器学习笔记(1)-频率派和贝叶斯派
https://www.bilibili.com/video/BV1aE411o7qd?t=376&p=2

Paul-Huang

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
机器学习-白板推导系列(一)-绪论（机器学习的MLE(最大似然估计)和MAP(最大后验估计)）

频率学派 - Frequentist - Maximum Likelihood Estimation (MLE，最大似然估计)贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP，最大后验估计)现代机器学习的终极问题都会转化为解目标函数的优化问题，MLE和MAP是生成这个函数的很基本的思想，因此我们对二者的认知是非常重要的。这次就和大家认真聊一聊MLE和MAP这两种estimator。1.频率学派和贝叶斯学派1.1 抽象理解频率学派和贝叶斯学派对世界的认知有本质
复制链接

扫一扫