文章目录
前言
本文简单描述最大似然估计(MLE, Maximum Likelihood Estimation)和最大后验概率估计(Maximum A Posteri)的关系和区别。
1. 问题描述
考虑一个随机变量A和它的观测值B,如何通过观测到B的值估计A的值?有两种基于条件概率的估计方式:
- 第一种,构造一个条件概率函数: P ( B ∣ A ) P(B|A) P(B∣A),即已知A的情况下B的概率分布,求满足该条件概率最大的A的值,即为A的估计值。
- 第二种,构造一个条件概率函数: P ( A ∣ B ) P(A|B) P(A∣B),即已知B的情况下A的概率分布,求满足该条件概率最大的A的值,即为A的估计值;
1.1 MLE
考虑上述第一种,我们求满足 P ( B ∣ A ) P(B|A) P(B∣A)最大的A的值。 P ( B ∣ A ) P(B|A) P(B∣A)又称为似然概率,所以这种估计方式叫做最大似然估计(MLE)。
1.2 MAP
考虑上述第二种,求满足
P
(
A
∣
B
)
P(A|B)
P(A∣B)最大的A的值。也就是说,求观测到B的情况下,A最有可能的值,直观上来说,这是我们真正要做的事情。然后,一般而言,条件概率
P
(
A
∣
B
)
P(A|B)
P(A∣B)并不好求。于是,根据贝叶斯公式进行变换后可得求A的估计值的公式:
A
^
=
argmax
A
[
P
(
A
∣
B
)
]
=
argmax
A
[
P
(
B
∣
A
)
×
P
(
A
)
P
(
B
)
]
=
argmax
A
[
P
(
B
∣
A
)
×
P
(
A
)
]
\begin{aligned} \hat{A} &= \text{argmax}_{A}[P(A|B)] \\ &= \text{argmax}_{A}[\frac{P(B|A) \times P(A)}{P(B)}] \\ &= \text{argmax}_{A}[P(B|A) \times P(A)] \end{aligned}
A^=argmaxA[P(A∣B)]=argmaxA[P(B)P(B∣A)×P(A)]=argmaxA[P(B∣A)×P(A)]
2. 简单通信系统的例子
以一个简单通信系统为例,假设发送端发送的符号是一个两电平信号,分别为0和1,经过一个高斯白噪声信道后,接收端根据接收到的信号来判决发送的是0还是1。
2.1 MLE解调
接收到的信号 R R R是一个随机变量,满足 R ∈ N ( μ , σ 2 ) R \in N(\mu, \sigma^2) R∈N(μ,σ2)的概率分布,其中:
- 发送符号为0时, R ∈ N ( 0 , σ 2 ) R \in N(0, \sigma^2) R∈N(0,σ2),其概率密度函数如下图蓝线所示;
- 发送符号为1时,
R
∈
N
(
1
,
σ
2
)
R \in N(1, \sigma^2)
R∈N(1,σ2),其概率密度函数如下图红线所示。
那么,如何根据接收到的信号幅度估计发送的符号是0还是1?显然,把接收到的信号幅度值对应到上图的x轴,判断这两条曲线的y轴值,选取y值最大的那条概率密度曲线对应的符号作为估计值。
如上图中红色箭头所示的位置,发送符号的估计值为1。
2.2 MAP解调
还是以上面这个简单通信系统举例,由于已知发送的两电平符号的概率是均匀分布,也就是说发0和发1的概率是一样的,所以上述MAP的公式退化为MLE。
假设我们知道发送端发送符号时,有0.3的概率发0,有0.7的概率发1,那么0和1时的两条概率曲线变成下图所示。给定一个x的值,很大概率会被判成1。似乎和常识不符。
3. 数据拟合
假设有一组样本数据: D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } \textbf{D} = \{(\mathbf{x}_1, y_1), (\mathbf{x}_2, y_2), ..., (\mathbf{x}_n, y_n) \} D={(x1,y1),(x2,y2),...,(xn,yn)},其中:
- x i \mathbf{x}_i xi为一个 m m m维的向量, x i = [ x i 1 x i 2 x i 3 . . . x i m ] T \mathbf{x}_i = \begin{bmatrix} x_{i1} & x_{i2} & x_{i3} & ... & x_{im} \end{bmatrix}^T xi=[xi1xi2xi3...xim]T, i = 1 , . . , n i=1,..,n i=1,..,n
- y i y_i yi为标量
-
y
i
y_i
yi和
x
i
x_i
xi之间满足如下映射关系:
y
i
=
ω
T
x
i
+
b
y_i = \mathbf{\omega}^T \mathbf{x}_i + \mathbf{b}
yi=ωTxi+b,其中:
ω = [ ω 1 ω 2 ω 3 . . . ω m ] T \mathbf{\omega} = \begin{bmatrix} \omega_1 & \omega_2 & \omega_3 & ... & \omega_m \end{bmatrix}^T ω=[ω1ω2ω3...ωm]T
3.1 MLE的推导及其与最小二乘的关系
数据拟合的问题就是已知样本集合 D D D的情况下,估计 ω \mathbf{\omega} ω的过程。这个过程可以用最大似然的概念来描述,就是求 argmax ω [ P ( D ∣ ω ) ] \textbf{argmax}_{\mathbf{\omega}}[P(\textbf{D} | \mathbf{\omega})] argmaxω[P(D∣ω)]。
上述过程中,如果令 x i 0 = 1 x_{i0}=1 xi0=1,则 b b b可以吸收到 ω T x i \mathbf{\omega}^T \mathbf{x}_i ωTxi中去,为了简化起见,以下推导都省略 b b b。
P
(
D
∣
ω
)
=
∏
i
=
0
n
p
(
x
i
,
y
i
∣
ω
)
\begin{aligned} P(\textbf{D} | \mathbf{\omega}) &= \prod_{i=0}^{n}p(\textbf{x}_i, y_i |\mathbf{\omega}) \end{aligned}
P(D∣ω)=i=0∏np(xi,yi∣ω)
对于数据集合,可以认为其样本包含高斯噪声,即:
y
i
=
ω
T
x
i
+
N
(
0
,
σ
2
)
y_i = \mathbf{\omega}^T \mathbf{x}_i + N(0,\sigma^2)
yi=ωTxi+N(0,σ2),所以有:
p
(
x
i
,
y
i
∣
ω
)
=
1
2
π
exp
(
−
(
y
i
−
ω
T
x
i
)
2
2
σ
2
)
p(\textbf{x}_i, y_i |\mathbf{\omega}) =\frac{1}{\sqrt{2\pi}} \textbf{exp} (- \frac{(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2}{2\sigma^2})
p(xi,yi∣ω)=2π1exp(−2σ2(yi−ωTxi)2)
采用对数似然函数可以得到:
L
(
ω
)
=
∑
(
l
o
g
1
2
π
−
(
y
i
−
ω
T
x
i
)
2
2
σ
2
)
L(\omega) = \sum(\mathbf{log}\frac{1}{\sqrt{2\pi}} - \frac{(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2}{2\sigma^2})
L(ω)=∑(log2π1−2σ2(yi−ωTxi)2)
去除与
ω
\omega
ω无关项,最大似然估计的
ω
^
\hat{\mathbf{\omega}}
ω^,即求似然函数
L
(
ω
)
L(\omega)
L(ω)的最大值等价于:
ω
^
=
argmax
ω
[
L
(
ω
)
]
=
argmin
ω
[
∑
(
y
i
−
ω
T
x
i
)
2
]
\begin{aligned} \hat{\mathbf{\omega}} &= \textbf{argmax}_{\mathbf{\omega}}[L(\omega)] \\ &= \textbf{argmin}_{\mathbf{\omega}}[ \sum(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2 ] \end{aligned}
ω^=argmaxω[L(ω)]=argminω[∑(yi−ωTxi)2]
由此可知,在观测为高斯噪声条件下,最大似然等价于最小二乘。
3.2 MAP的考虑
如果说
ω
\omega
ω的先验概率已知,即
p
(
ω
)
p(\omega)
p(ω)为已知函数,那么MAP的估计值就是:
ω
^
=
argmax
ω
[
L
(
ω
)
+
l
o
g
p
(
ω
)
]
=
argmax
ω
[
l
o
g
p
(
ω
)
−
(
y
i
−
ω
T
x
i
)
2
2
σ
2
]
\begin{aligned} \hat{\mathbf{\omega}} &= \textbf{argmax}_{\mathbf{\omega}}[L(\omega)+\mathbf{log}p(\omega)] \\ &= \textbf{argmax}_{\mathbf{\omega}}[\mathbf{log}p(\omega) - \frac{(y_i - \mathbf{\omega}^T\mathbf{x}_i)^2}{2\sigma^2}] \end{aligned}
ω^=argmaxω[L(ω)+logp(ω)]=argmaxω[logp(ω)−2σ2(yi−ωTxi)2]
如果
p
(
ω
)
p(\omega)
p(ω)也是高斯分布,那么MAP就变成了kalmann滤波器。
参考文献
无。