工作小笔记——对MLE和MAP的简单理解

m0_71775106

于 2022-12-07 22:22:43 发布

阅读量503

点赞数

文章标签：概率论机器人算法学习

本文链接：https://blog.csdn.net/m0_71775106/article/details/128194311

版权

导航与定位专栏收录该内容

13 篇文章 8 订阅

订阅专栏

文章目录

前言
1. 问题描述
1.1 MLE
1.2 MAP
2. 简单通信系统的例子
- 2.1 MLE解调
- 2.2 MAP解调
3. 数据拟合
- 3.1 MLE的推导及其与最小二乘的关系
- 3.2 MAP的考虑
参考文献

前言

本文简单描述最大似然估计（MLE, Maximum Likelihood Estimation）和最大后验概率估计（Maximum A Posteri）的关系和区别。

1. 问题描述

考虑一个随机变量A和它的观测值B，如何通过观测到B的值估计A的值？有两种基于条件概率的估计方式：

第一种，构造一个条件概率函数： $P (B ∣ A)$ ，即已知A的情况下B的概率分布，求满足该条件概率最大的A的值，即为A的估计值。
第二种，构造一个条件概率函数： $P (A ∣ B)$ ，即已知B的情况下A的概率分布，求满足该条件概率最大的A的值，即为A的估计值；

1.1 MLE

考虑上述第一种，我们求满足 $P (B ∣ A)$ 最大的A的值。 $P (B ∣ A)$ 又称为似然概率，所以这种估计方式叫做最大似然估计（MLE）。

1.2 MAP

考虑上述第二种，求满足 $P (A ∣ B)$ 最大的A的值。也就是说，求观测到B的情况下，A最有可能的值，直观上来说，这是我们真正要做的事情。然后，一般而言，条件概率 $P (A ∣ B)$ 并不好求。于是，根据贝叶斯公式进行变换后可得求A的估计值的公式：
$\begin{aligned} \hat{A} &= \text{argmax}_{A}[P(A|B)] \\ &= \text{argmax}_{A}[\frac{P(B|A) \times P(A)}{P(B)}] \\ &= \text{argmax}_{A}[P(B|A) \times P(A)] \end{aligned}$

2. 简单通信系统的例子

以一个简单通信系统为例，假设发送端发送的符号是一个两电平信号，分别为0和1，经过一个高斯白噪声信道后，接收端根据接收到的信号来判决发送的是0还是1。

2.1 MLE解调

接收到的信号 $R$ 是一个随机变量，满足 $\in N(\mu, \sigma^2)$ 的概率分布，其中：

发送符号为0时， $\in N(0, \sigma^2)$ ，其概率密度函数如下图蓝线所示；
发送符号为1时， $\in N(1, \sigma^2)$ ，其概率密度函数如下图红线所示。

那么，如何根据接收到的信号幅度估计发送的符号是0还是1？显然，把接收到的信号幅度值对应到上图的x轴，判断这两条曲线的y轴值，选取y值最大的那条概率密度曲线对应的符号作为估计值。
如上图中红色箭头所示的位置，发送符号的估计值为1。

2.2 MAP解调

还是以上面这个简单通信系统举例，由于已知发送的两电平符号的概率是均匀分布，也就是说发0和发1的概率是一样的，所以上述MAP的公式退化为MLE。

假设我们知道发送端发送符号时，有0.3的概率发0，有0.7的概率发1，那么0和1时的两条概率曲线变成下图所示。给定一个x的值，很大概率会被判成1。似乎和常识不符。
在这里插入图片描述

3. 数据拟合

假设有一组样本数据： $\textbf{D} = \{(\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), ..., (\mathbf{x}_n, y_n) \}$ ，其中：

$\mathbf{x}_i$ 为一个 $m$ 维的向量， $\mathbf{x}_i = \begin{bmatrix} x_{i1} & x_{i2} & x_{i3} & ... & x_{im} \end{bmatrix}^T$ ， $i = 1, . ., n$
$y_i$ 为标量
$y_i$ 和 $x_i$ 之间满足如下映射关系： $y_i = \mathbf{\omega}^T \mathbf{x}_i + \mathbf{b}$ ，其中：
$\mathbf{\omega} = \begin{bmatrix} \omega_1 & \omega_2 & \omega_3 & ... & \omega_m \end{bmatrix}^T$

3.1 MLE的推导及其与最小二乘的关系

数据拟合的问题就是已知样本集合 $D$ 的情况下，估计 $\mathbf{\omega}$ 的过程。这个过程可以用最大似然的概念来描述，就是求 $\textbf{argmax}_{\mathbf{\omega}}[P(\textbf{D} | \mathbf{\omega})]$ 。

上述过程中，如果令 $x_{i0}=1$ ，则 $b$ 可以吸收到 $\mathbf{\omega}^T \mathbf{x}_i$ 中去，为了简化起见，以下推导都省略 $b$ 。

$\begin{aligned} P(\textbf{D} | \mathbf{\omega}) &= \prod_{i=0}^{n}p(\textbf{x}_i, y_i |\mathbf{\omega}) \end{aligned}$
对于数据集合，可以认为其样本包含高斯噪声，即： $y_i = \mathbf{\omega}^T \mathbf{x}_i + N(0,\sigma^2)$ ，所以有：
$p(\textbf{x}_i, y_i |\mathbf{\omega}) =\frac{1}{\sqrt{2\pi}} \textbf{exp} (- \frac{(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2}{2\sigma^2})$

采用对数似然函数可以得到：
$L(\omega) = \sum(\mathbf{log}\frac{1}{\sqrt{2\pi}} - \frac{(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2}{2\sigma^2})$

去除与 $\omega$ 无关项，最大似然估计的 $\hat{\mathbf{\omega}}$ ，即求似然函数 $L(\omega)$ 的最大值等价于：
$\begin{aligned} \hat{\mathbf{\omega}} &= \textbf{argmax}_{\mathbf{\omega}}[L(\omega)] \\ &= \textbf{argmin}_{\mathbf{\omega}}[ \sum(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2 ] \end{aligned}$
由此可知，在观测为高斯噪声条件下，最大似然等价于最小二乘。

3.2 MAP的考虑

如果说 $\omega$ 的先验概率已知，即 $p(\omega)$ 为已知函数，那么MAP的估计值就是：
$\begin{aligned} \hat{\mathbf{\omega}} &= \textbf{argmax}_{\mathbf{\omega}}[L(\omega)+\mathbf{log}p(\omega)] \\ &= \textbf{argmax}_{\mathbf{\omega}}[\mathbf{log}p(\omega) - \frac{(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2}{2\sigma^2}] \end{aligned}$
如果 $p(\omega)$ 也是高斯分布，那么MAP就变成了kalmann滤波器。

参考文献

无。

m0_71775106

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录