1 一维情况 MLE
1.1 均值、方差估计
数据:
X
=
(
x
1
,
x
2
,
.
.
.
.
.
.
,
x
N
)
T
=
(
x
1
T
x
2
T
⋮
x
N
T
)
N
×
p
X=(x_{1},x_{2},......,x_{N})^{T}=\left(\begin{array}{c}x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{N}^{T}\end{array}\right)_{N \times p}
X=(x1,x2,......,xN)T=⎝⎜⎜⎜⎛x1Tx2T⋮xNT⎠⎟⎟⎟⎞N×p
x
i
∈
R
p
x_{i} \in \mathbb{R}^{p}
xi∈Rp
x
i
∼
i
i
d
N
(
μ
,
Σ
)
x_{i}\sim ^{iid}N(\mu, \Sigma)
xi∼iidN(μ,Σ)
θ
=
(
μ
,
Σ
)
\theta=(\mu,\Sigma)
θ=(μ,Σ)
变量x独立同分布,服从于
(
μ
,
Σ
)
(\mu,\Sigma)
(μ,Σ)的高斯分布
高斯分布在机器学习中占有举足轻重的作用。在 MLE 方法中:
θ = ( μ , Σ ) = ( μ , σ 2 ) , θ M L E = a r g m a x θ log p ( X ∣ θ ) = i i d a r g m a x θ ∑ i = 1 N log p ( x i ∣ θ ) \theta=(\mu,\Sigma)=(\mu,\sigma^{2}),\theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta) θ=(μ,Σ)=(μ,σ2),θMLE=θargmaxlogp(X∣θ)iid=θargmaxi=1∑Nlogp(xi∣θ) 一般地,高斯分布的概率密度函数PDF写为:
p
(
x
∣
μ
,
Σ
)
=
1
(
2
π
)
p
/
2
∣
Σ
∣
1
/
2
e
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}
p(x∣μ,Σ)=(2π)p/2∣Σ∣1/21e−21(x−μ)TΣ−1(x−μ)
带入 MLE 中我们考虑一维的情况,需求解参数有
μ
,
σ
\mu,\sigma
μ,σ
log p ( X ∣ θ ) = log ∏ i = 1 N p ( x i ∣ θ ) = ∑ i = 1 N log p ( x i ∣ θ ) = ∑ i = 1 N log 1 2 π σ exp ( − ( x i − μ ) 2 / 2 σ 2 ) = ∑ i = 1 N [ log 1 2 π + log 1 σ − ( x i − μ ) 2 / 2 σ 2 ] \begin{aligned} \log p(X|\theta)=\log\prod\limits _{i=1}^{N} p(x_{i}|\theta) &=\sum\limits _{i=1}^{N}\log p(x_{i}|\theta) \\ &=\sum\limits _{i=1}^{N}\log\frac{1}{\sqrt{2\pi}\sigma}\exp(-(x_{i}-\mu)^{2}/2\sigma^{2}) \\ &=\sum\limits _{i=1}^{N}\left[\log\frac{1}{\sqrt{2\pi}}+ \log\frac{1}{\sigma}-(x_{i}-\mu)^{2}/2\sigma^{2}\right] \end{aligned} logp(X∣θ)=logi=1∏Np(xi∣θ)=i=1∑Nlogp(xi∣θ)=i=1∑Nlog2πσ1exp(−(xi−μ)2/2σ2)=i=1∑N[log2π1+logσ1−(xi−μ)2/2σ2]
估计结果:
均值无偏:
μ
M
L
E
=
1
N
∑
i
=
1
N
x
i
\mu_{MLE}=\frac{1}{N}\sum\limits_ {i=1}^{N}x_{i}
μMLE=N1i=1∑Nxi
方差有偏:
σ
M
L
E
2
=
1
N
∑
i
=
1
N
(
x
i
−
μ
M
L
E
)
2
\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{MLE})^{2}
σMLE2=N1i=1∑N(xi−μMLE)2
无偏方差:
σ
^
2
=
1
N
−
1
∑
i
=
1
N
(
x
i
−
μ
M
L
E
)
2
\hat{\sigma}^{2}=\frac{1}{N-1}\sum\limits_ {i=1}^{N}(x_{i}-\mu_{MLE})^{2}
σ^2=N−11i=1∑N(xi−μMLE)2
首先对 μ \mu μ 的极值可以得到 : μ M L E = a r g m a x μ log p ( X ∣ θ ) = a r g m a x μ − ( x i − μ ) 2 / 2 σ 2 = a r g m i n μ ∑ i = 1 N ( x i − μ ) 2 \mu_{MLE}=\mathop{argmax}\limits _{\mu}\log p(X|\theta)=\mathop{argmax}\limits_ {\mu}-(x_{i}-\mu)^{2}/2\sigma^{2} =\mathop{argmin}\limits_ {\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2} μMLE=μargmaxlogp(X∣θ)=μargmax−(xi−μ)2/2σ2=μargmini=1∑N(xi−μ)2
于是: ∂ ∂ μ ∑ i = 1 N ( x i − μ ) 2 = 0 ⟶ μ M L E = 1 N ∑ i = 1 N x i \frac{\partial}{\partial\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}=0\longrightarrow\mu_{MLE}=\frac{1}{N}\sum\limits_ {i=1}^{N}x_{i} ∂μ∂i=1∑N(xi−μ)2=0⟶μMLE=N1i=1∑Nxi
其次对
θ
\theta
θ 中的另一个参数
σ
\sigma
σ ,有:
σ
M
L
E
=
a
r
g
m
a
x
σ
log
p
(
X
∣
θ
)
=
a
r
g
m
a
x
σ
∑
i
=
1
N
[
−
log
σ
−
1
2
σ
2
(
x
i
−
μ
)
2
]
=
a
r
g
m
i
n
σ
∑
i
=
1
N
[
log
σ
+
1
2
σ
2
(
x
i
−
μ
)
2
]
\begin{aligned} \sigma_{M L E}=\mathop{argmax}\limits _{\sigma} \log p(X | \theta) &=\mathop{argmax}\limits_{\sigma} \sum_{i=1}^{N}\left[-\log \sigma-\frac{1}{2 \sigma^{2}}\left(x_{i}-\mu\right)^{2}\right] \\ &=\mathop{argmin}\limits _{\sigma} \sum_{i=1}^{N}\left[\log \sigma+\frac{1}{2 \sigma^{2}}\left(x_{i}-\mu\right)^{2}\right] \end{aligned}
σMLE=σargmaxlogp(X∣θ)=σargmaxi=1∑N[−logσ−2σ21(xi−μ)2]=σargmini=1∑N[logσ+2σ21(xi−μ)2]
于是: ∂ ∂ σ ∑ i = 1 N [ log σ + 1 2 σ 2 ( x i − μ ) 2 ] = 0 ⟶ σ M L E 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \frac{\partial}{\partial\sigma}\sum\limits _{i=1}^{N}[\log\sigma+\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]=0\longrightarrow\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x{i}-\mu)^{2} ∂σ∂i=1∑N[logσ+2σ21(xi−μ)2]=0⟶σMLE2=N1i=1∑N(xi−μ)2
1.2 有偏vs无偏
值得注意的是,上面的推导中,首先对
μ
\mu
μ 求 MLE, 然后利用这个结果求
σ
M
L
E
\sigma_{MLE}
σMLE ,因此可以预期的是对数据集求期望时
E
D
[
μ
M
L
E
]
\mathbb{E}_{\mathcal{D}}[\mu_{MLE}]
ED[μMLE] 是无偏差的:
E
D
[
μ
M
L
E
]
=
E
D
[
1
N
∑
i
=
1
N
x
i
]
=
1
N
∑
i
=
1
N
E
D
[
x
i
]
=
μ
\mathbb{E}_{\mathcal{D}}[\mu_{MLE}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\frac{1}{N}\sum\limits _{i=1}^{N}\mathbb{E}_{\mathcal{D}}[x_{i}]=\mu
ED[μMLE]=ED[N1i=1∑Nxi]=N1i=1∑NED[xi]=μ
(因为
x
i
x_{i}
xi独立同分布,所以
E
D
[
x
i
]
=
μ
\mathbb{E}_{\mathcal{D}}[x_{i}]=\mu
ED[xi]=μ)
但是当对 σ M L E \sigma_{MLE} σMLE 求 期望的时候由于使用了单个数据集的 μ M L E \mu_{MLE} μMLE,因此对所有数据集求期望的时候我们会发现 σ M L E \sigma_{MLE} σMLE 是 有偏的:
E D [ σ M L E 2 ] = E D [ 1 N ∑ i = 1 N ( x i − μ M L E ) 2 ] = E D [ 1 N ∑ i = 1 N ( x i 2 − 2 x i μ M L E + μ M L E 2 ) = E D [ 1 N ∑ i = 1 N x i 2 − μ M L E 2 ] = E D [ 1 N ∑ i = 1 N x i 2 − μ 2 + μ 2 − μ M L E 2 ] = E D [ 1 N ∑ i = 1 N ( x i 2 − μ 2 ) ] − E D [ μ M L E 2 − μ 2 ] = 1 N ∑ i = 1 N ( E D ( x i 2 ) − μ 2 ) − ( E D [ μ M L E 2 ] − E D 2 [ μ M L E ] ) = 1 N ∑ i = 1 N ( E D ( x i 2 ) − ( E D 2 ( x i ) ) ) − Var [ μ M L E ] = σ 2 − Var [ 1 N ∑ i = 1 N x i ] = σ 2 − 1 N 2 ∑ i = 1 N Var [ x i ] = N − 1 N σ 2 \begin{aligned} \mathbb{E}_{\mathcal{D}}\left[\sigma_{M L E}^{2}\right] &=\mathbb{E}_{\mathcal{D}}\left[\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\mu_{M L E}\right)^{2}\right]=\mathbb{E}_{\mathcal{D}}\left[\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}^{2}-2 x_{i} \mu_{M L E}+\mu_{M L E}^{2}\right)\right.\\ &=\mathbb{E}_{\mathcal{D}}\left[\frac{1}{N} \sum_{i=1}^{N} x_{i}^{2}-\mu_{M L E}^{2}\right]=\mathbb{E}_{\mathcal{D}}\left[\frac{1}{N} \sum_{i=1}^{N} x_{i}^{2}-\mu^{2}+\mu^{2}-\mu_{M L E}^{2}\right] \\ &=\mathbb{E}_{\mathcal{D}}\left[\frac{1}{N} \sum_{i=1}^{N} (x_{i}^{2}-\mu^{2})\right]-\mathbb{E}_{ \mathcal{D}}\left[\mu_{M L E}^{2}-\mu^{2}\right] \\ &=\frac{1}{N} \sum_{i=1}^{N} (\mathbb{E}_{\mathcal{D}}(x_{i}^{2})-\mu^{2})-\left(\mathbb{E}_{\mathcal{D}}\left[\mu_{M L E}^{2}\right]-\mathbb{E}_{\mathcal{D}}^{2}\left[\mu_{M L E}\right]\right)\\ &=\frac{1}{N} \sum_{i=1}^{N} (\mathbb{E}_{\mathcal{D}}(x_{i}^{2})-(\mathbb{E}_{\mathcal{D}}^{2}(x_{i})))-\operatorname{Var}\left[\mu_{M L E}\right] \\ &=\sigma^{2}-\operatorname{Var}\left[\frac{1}{N} \sum_{i=1}^{N} x_{i}\right]\\ &=\sigma^{2}-\frac{1}{N^{2}} \sum_{i=1}^{N} \operatorname{Var}\left[x_{i}\right]\\ &=\frac{N-1}{N} \sigma^{2} \end{aligned} ED[σMLE2]=ED[N1i=1∑N(xi−μMLE)2]=ED[N1i=1∑N(xi2−2xiμMLE+μMLE2)=ED[N1i=1∑Nxi2−μMLE2]=ED[N1i=1∑Nxi2−μ2+μ2−μMLE2]=ED[N1i=1∑N(xi2−μ2)]−ED[μMLE2−μ2]=N1i=1∑N(ED(xi2)−μ2)−(ED[μMLE2]−ED2[μMLE])=N1i=1∑N(ED(xi2)−(ED2(xi)))−Var[μMLE]=σ2−Var[N1i=1∑Nxi]=σ2−N21i=1∑NVar[xi]=NN−1σ2
所以: σ ^ 2 = 1 N − 1 ∑ i = 1 N ( x i − μ ) 2 \hat{\sigma}^{2}=\frac{1}{N-1}\sum\limits_ {i=1}^{N}(x_{i}-\mu)^{2} σ^2=N−11i=1∑N(xi−μ)2
2 多维情况
2.1 概率密度角度
x = ( x 1 x 2 ⋮ x p ) x=\left(\begin{array}{c}x_{1} \\ x_{2}\\ \vdots \\ x_{p}\end{array}\right) x=⎝⎜⎜⎜⎛x1x2⋮xp⎠⎟⎟⎟⎞ μ = ( μ 1 μ 2 ⋮ μ p ) \mu=\left(\begin{array}{c}\mu_{1} \\ \mu_{2}\\ \vdots \\ \mu_{p}\end{array}\right) μ=⎝⎜⎜⎜⎛μ1μ2⋮μp⎠⎟⎟⎟⎞ Σ = ( σ 11 σ 21 … σ 1 p σ 21 σ 22 … σ 2 p ⋮ ⋮ ⋮ ⋮ σ p 1 σ p 2 … σ p p ) \Sigma=\left(\begin{array}{c}\sigma_{11} \sigma_{21} \dots \sigma_{1p}\\ \sigma_{21} \sigma_{22} \dots \sigma_{2p}\\ \vdots \quad \vdots \quad \vdots \quad \vdots \\ \sigma_{p1} \sigma_{p2} \dots \sigma_{pp} \end{array}\right) Σ=⎝⎜⎜⎜⎛σ11σ21…σ1pσ21σ22…σ2p⋮⋮⋮⋮σp1σp2…σpp⎠⎟⎟⎟⎞
多维高斯分布表达式为:
p
(
x
∣
μ
,
Σ
)
=
1
(
2
π
)
p
/
2
∣
Σ
∣
1
/
2
e
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}
p(x∣μ,Σ)=(2π)p/2∣Σ∣1/21e−21(x−μ)TΣ−1(x−μ)
其中
x
,
μ
∈
R
p
,
Σ
∈
R
p
×
p
x,\mu\in\mathbb{R}^{p},\Sigma\in\mathbb{R}^{p\times p}
x,μ∈Rp,Σ∈Rp×p ,
Σ
\Sigma
Σ 为协方差矩阵,一般而言也是半正定矩阵。这里我们只考虑正定矩阵。首先我们处理指数上的数字,指数上的数字(
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
(x-\mu)^{T}\Sigma^{-1}(x-\mu)
(x−μ)TΣ−1(x−μ)可以记为
x
x
x 和
μ
\mu
μ 之间的马氏距离(当
Σ
=
I
\Sigma=I
Σ=I时,马氏距离=欧式距离)。对于对称的协方差矩阵可进行特征值分解,
Σ
=
U
Λ
U
T
=
(
u
1
,
u
2
,
⋯
,
u
p
)
d
i
a
g
(
λ
i
)
(
u
1
,
u
2
,
⋯
,
u
p
)
T
=
∑
i
=
1
p
u
i
λ
i
u
i
T
\Sigma=U\Lambda U^{T}=(u_{1},u_{2},\cdots,u_{p})diag(\lambda_{i})(u_{1},u_{2},\cdots,u_{p})^{T}=\sum\limits _{i=1}^{p}u_{i}\lambda_{i}u_{i}^{T}
Σ=UΛUT=(u1,u2,⋯,up)diag(λi)(u1,u2,⋯,up)T=i=1∑puiλiuiT ,(其中
U
U
T
=
U
T
U
=
I
,
U
=
(
u
1
,
u
2
,
,
⋯
,
u
p
)
p
∗
p
U U^{T}=U^{T} U=I,U=(u_{1},u_{2},,\cdots,u_{p})_{p*p}
UUT=UTU=I,U=(u1,u2,,⋯,up)p∗p,
u
i
u_{i}
ui实际上时协方差矩阵的特征向量)于是:
Σ − 1 = ∑ i = 1 p u i 1 λ i u i T \Sigma^{-1}=\sum\limits _{i=1}^{p}u_{i}\frac{1}{\lambda_{i}}u_{i}^{T} Σ−1=i=1∑puiλi1uiT
Δ = ( x − μ ) T Σ − 1 ( x − μ ) = ∑ i = 1 p ( x − μ ) T u i 1 λ i u i T ( x − μ ) = ∑ i = 1 p y i 2 λ i \Delta=(x-\mu)^{T}\Sigma^{-1}(x-\mu)=\sum\limits _{i=1}^{p}(x-\mu)^{T}u_{i}\frac{1}{\lambda_{i}}u_{i}^{T}(x-\mu)=\sum\limits _{i=1}^{p}\frac{y{i}^{2}}{\lambda_{i}} Δ=(x−μ)TΣ−1(x−μ)=i=1∑p(x−μ)Tuiλi1uiT(x−μ)=i=1∑pλiyi2
令
y
i
=
(
x
−
μ
)
T
u
i
y_{i}=(x-\mu)^{T}u_{i}
yi=(x−μ)Tui,因此
y
i
y_{i}
yi是一个实数
我们注意到
y
i
y_{i}
yi 是
x
−
μ
x-\mu
x−μ 在特征向量
u
i
u_{i}
ui 上的投影长度,因此上式子就是
Δ
\Delta
Δ 取不同值时的同心椭圆(例如p=2)。
p
(
x
)
=
1
(
2
π
)
p
/
2
∣
Σ
∣
1
/
2
e
−
1
2
Δ
p(x)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}\Delta}
p(x)=(2π)p/2∣Σ∣1/21e−21Δ。一维的概率密度曲线用二维坐标系表示,二维的概率密度函数就需要用三维坐标系表示,是一个曲面,向x轴投影后就很多椭圆,如下图。
2.2 局限性
下面我们看多维高斯模型在实际应用时的两个问题
Σ
=
(
σ
11
σ
21
…
σ
1
p
σ
21
σ
22
…
σ
2
p
⋮
⋮
⋮
⋮
σ
p
1
σ
p
2
…
σ
p
p
)
\Sigma=\left(\begin{array}{c}\sigma_{11} \sigma_{21} \dots \sigma_{1p}\\ \sigma_{21} \sigma_{22} \dots \sigma_{2p}\\ \vdots \quad \vdots \quad \vdots \quad \vdots \\ \sigma_{p1} \sigma_{p2} \dots \sigma_{pp} \end{array}\right)
Σ=⎝⎜⎜⎜⎛σ11σ21…σ1pσ21σ22…σ2p⋮⋮⋮⋮σp1σp2…σpp⎠⎟⎟⎟⎞
对于参数
Σ
\Sigma
Σ而言,参数有
p
2
p^{2}
p2个,但是此矩阵时对称的,所以参数有(p+1)p/2个
-
参数过多:参数 Σ , μ \Sigma,\mu Σ,μ 的自由度为 O ( p 2 ) O(p^{2}) O(p2) 对于维度很高的数据其自由度太高,不利于计算。解决方案:高自由度的来源是 Σ \Sigma Σ 有 p ( p + 1 ) 2 \frac{p(p+1)}{2} 2p(p+1) 个自由参数,可以假设其是对角矩阵,甚至在各向同性假设中假设其对角线上的元素都相同。前一种的算法有 Factor Analysis,后一种有概率 PCA(p-PCA) 。
-
第二个问题是单个高斯分布是单峰的,对有多个峰的数据分布不能得到好的结果。解决方案:高斯混合GMM 模型。
2.3 边缘概率和条件概率
下面对多维高斯分布的常用定理进行介绍。
我们记 x = ( x 1 , x 2 , ⋯ , x p ) T = ( x a , m × 1 , x b , n × 1 ) T , μ = ( μ a , m × 1 , μ b , n × 1 ) , Σ = ( Σ a a Σ a b Σ b a Σ b b ) , m + n = p x=(x_1, x_2,\cdots,x_p)^T=(x_{a,m\times 1}, x_{b,n\times1})^T,\mu=(\mu_{a,m\times1}, \mu_{b,n\times1}),\Sigma=\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\ \Sigma_{ba}&\Sigma_{bb}\end{pmatrix},m+n=p x=(x1,x2,⋯,xp)T=(xa,m×1,xb,n×1)T,μ=(μa,m×1,μb,n×1),Σ=(ΣaaΣbaΣabΣbb),m+n=p,已知 x ∼ N ( μ , Σ ) x\sim\mathcal{N}(\mu,\Sigma) x∼N(μ,Σ)。求 p ( x a ) , p ( x b ) , p ( x a ∣ x b ) , p ( x b ∣ x a ) p(x_a),p(x_b),p(x_a|x_b),p(x_b|x_a) p(xa),p(xb),p(xa∣xb),p(xb∣xa)
首先是一个高斯分布的定理:
定理:已知 x ∼ N ( μ , Σ ) , y ∼ A x + b x\sim\mathcal{N}(\mu,\Sigma), y\sim Ax+b x∼N(μ,Σ),y∼Ax+b,那么 y ∼ N ( A μ + b , A Σ A T ) y\sim\mathcal{N}(A\mu+b, A\Sigma A^T) y∼N(Aμ+b,AΣAT)。
证明: E [ y ] = E [ A x + b ] = A E [ x ] + b = A μ + b \mathbb{E}[y]=\mathbb{E}[Ax+b]=A\mathbb{E}[x]+b=A\mu+b E[y]=E[Ax+b]=AE[x]+b=Aμ+b, V a r [ y ] = V a r [ A x + b ] = V a r [ A x ] = A ⋅ V a r [ x ] ⋅ A T Var[y]=Var[Ax+b]=Var[Ax]=A\cdot Var[x]\cdot A^T Var[y]=Var[Ax+b]=Var[Ax]=A⋅Var[x]⋅AT。
下面利用这个定理得到 p ( x a ) , p ( x b ) , p ( x a ∣ x b ) , p ( x b ∣ x a ) p(x_a),p(x_b),p(x_a|x_b),p(x_b|x_a) p(xa),p(xb),p(xa∣xb),p(xb∣xa) 这四个量。
-
x a = ( I m × m O m × n ) ) ( x a x b ) \left.x_{a}=\left(\mathbb{I}_{m \times m} \quad \mathbb{O}_{m \times n}\right)\right)\left(\begin{array}{l} x_{a} \\ x_{b} \end{array}\right) xa=(Im×mOm×n))(xaxb),代入定理中得到:
E [ x a ] = ( I O ) ( μ a μ b ) = μ a \mathbb{E}[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\mu_a\\ \mu_b\end{pmatrix}=\mu_a E[xa]=(IO)(μaμb)=μa V a r [ x a ] = ( I O ) ( Σ a a Σ a b Σ b a Σ b b ) ( I O ) = Σ a a Var[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\ \Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}\mathbb{I}\\ \mathbb{O}\end{pmatrix}=\Sigma_{aa} Var[xa]=(IO)(ΣaaΣbaΣabΣbb)(IO)=Σaa
所以 x a ∼ N ( μ a , Σ a a ) x_a\sim\mathcal{N}(\mu_a,\Sigma_{aa}) xa∼N(μa,Σaa)。 -
同样的, x b ∼ N ( μ b , Σ b b ) x_b\sim\mathcal{N}(\mu_b,\Sigma_{bb}) xb∼N(μb,Σbb)。
-
对于两个条件概率,我们引入三个量:
x b ⋅ a = x b − Σ b a Σ a a − 1 x a x_{b\cdot a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a xb⋅a=xb−ΣbaΣaa−1xa μ b ⋅ a = μ b − Σ b a Σ a a − 1 μ a \mu_{b\cdot a}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a μb⋅a=μb−ΣbaΣaa−1μa Σ b b ⋅ a = Σ b b − Σ b a Σ a a − 1 Σ a b \Sigma_{bb\cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} Σbb⋅a=Σbb−ΣbaΣaa−1Σab
特别的,最后一个式子叫做 Σ b b \Sigma_{bb} Σbb 的 Schur Complementary。可以看到:
x b ⋅ a = ( − Σ b a Σ a a − 1 I n × n ) ( x a x b ) x_{b \cdot a}=\left(-\Sigma_{b a} \Sigma_{a a}^{-1} \quad \mathbb{I}_{n \times n}\right)\left(\begin{array}{l} x_{a} \\ x_{b} \end{array}\right) xb⋅a=(−ΣbaΣaa−1In×n)(xaxb)
所以:
E [ x b ⋅ a ] = ( − Σ b a Σ a a − 1 I n × n ) ( μ a μ b ) = μ b ⋅ a \mathbb{E}[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}=\mu_{b\cdot a} E[xb⋅a]=(−ΣbaΣaa−1In×n)(μaμb)=μb⋅a V a r [ x b ⋅ a ] = ( − Σ b a Σ a a − 1 I n × n ) ( Σ a a Σ a b Σ b a Σ b b ) ( − Σ a a − 1 Σ b a T I n × n ) = Σ b b ⋅ a Var[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\ \Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}-\Sigma_{aa}^{-1}\Sigma_{ba}^T\\ \mathbb{I}_{n\times n}\end{pmatrix}=\Sigma_{bb\cdot a} Var[xb⋅a]=(−ΣbaΣaa−1In×n)(ΣaaΣbaΣabΣbb)(−Σaa−1ΣbaTIn×n)=Σbb⋅a 利用这三个量可以得到 x b = x b ⋅ a + Σ b a Σ a a − 1 x a x_b=x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a xb=xb⋅a+ΣbaΣaa−1xa。因此: E [ x b ∣ x a ] = μ b ⋅ a + Σ b a Σ a a − 1 x a \mathbb{E}[x_b|x_a]=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a E[xb∣xa]=μb⋅a+ΣbaΣaa−1xa V a r [ x b ∣ x a ] = Σ b b ⋅ a Var[x_b|x_a]=\Sigma_{bb\cdot a} Var[xb∣xa]=Σbb⋅a 这里同样用到了定理。
上述推导中缺少Xb.a 与Xa的独立性证明,具体证明步骤如下:
左侧是Mx和Nx相互独立的充要条件证明,后边使用左侧的结论。以上证明中x为服从高斯分布的随机变量,M,N均为矩阵,Mx,Nx也服从高斯分布,其中M,N为矩阵。
Note:
- 一般情况下两个随机变量之间独立一定不相关,不相关不一定独立(也就是独立的概念更“苛刻”一点,不相关稍微“弱”一点)
- 如果两个随机变量均服从高斯分布,那么“不相关”等价于“独立”
- 同样:
x
a
⋅
b
=
x
a
−
Σ
a
b
Σ
b
b
−
1
x
b
x_{a\cdot b}=x_a-\Sigma_{ab}\Sigma_{bb}^{-1}x_b
xa⋅b=xa−ΣabΣbb−1xb
μ
a
⋅
b
=
μ
a
−
Σ
a
b
Σ
b
b
−
1
μ
b
\mu_{a\cdot b}=\mu_a-\Sigma_{ab}\Sigma_{bb}^{-1}\mu_b
μa⋅b=μa−ΣabΣbb−1μb
Σ
a
a
⋅
b
=
Σ
a
a
−
Σ
a
b
Σ
b
b
−
1
Σ
b
a
\Sigma_{aa\cdot b}=\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba}
Σaa⋅b=Σaa−ΣabΣbb−1Σba
所以: E [ x a ∣ x b ] = μ a ⋅ b + Σ a b Σ b b − 1 x b \mathbb{E}[x_a|x_b]=\mu_{a\cdot b}+\Sigma_{ab}\Sigma_{bb}^{-1}x_b E[xa∣xb]=μa⋅b+ΣabΣbb−1xb V a r [ x a ∣ x b ] = Σ a a ⋅ b Var[x_a|x_b]=\Sigma_{aa\cdot b} Var[xa∣xb]=Σaa⋅b
2.4 联合概率分布
下面利用上边四个量,求解线性模型:
已知: p ( x ) = N ( μ , Λ − 1 ) , p ( y ∣ x ) = N ( A x + b , L − 1 ) p(x)=\mathcal{N}(\mu,\Lambda^{-1}),p(y|x)=\mathcal{N}(Ax+b,L^{-1}) p(x)=N(μ,Λ−1),p(y∣x)=N(Ax+b,L−1),求解: p ( y ) , p ( x ∣ y ) p(y),p(x|y) p(y),p(x∣y)。
解:令
y
=
A
x
+
b
+
ϵ
,
ϵ
∼
N
(
0
,
L
−
1
)
y=Ax+b+\epsilon,\epsilon\sim\mathcal{N}(0,L^{-1})
y=Ax+b+ϵ,ϵ∼N(0,L−1),所以
E
[
y
]
=
E
[
A
x
+
b
+
ϵ
]
=
A
μ
+
b
\mathbb{E}[y]=\mathbb{E}[Ax+b+\epsilon]=A\mu+b
E[y]=E[Ax+b+ϵ]=Aμ+b,
V
a
r
[
y
]
=
A
Λ
−
1
A
T
+
L
−
1
Var[y]=A \Lambda^{-1}A^T+L^{-1}
Var[y]=AΛ−1AT+L−1,因此:
p
(
y
)
=
N
(
A
μ
+
b
,
L
−
1
+
A
Λ
−
1
A
T
)
p(y)=\mathcal{N}(A\mu+b,L^{-1}+A\Lambda^{-1}A^T)
p(y)=N(Aμ+b,L−1+AΛ−1AT)
引入
z
=
(
x
y
)
z=\left(\begin{array}{l}x \\ y\end{array}\right)
z=(xy),我们可以得到
C
o
v
[
x
,
y
]
=
E
[
(
x
−
E
[
x
]
)
(
y
−
E
[
y
]
)
T
]
Cov[x,y]=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])^T]
Cov[x,y]=E[(x−E[x])(y−E[y])T]。对于这个协方差可以直接计算:
Cov
(
x
,
y
)
=
E
[
(
x
−
μ
)
(
A
x
−
A
μ
+
ϵ
)
T
]
=
E
[
(
x
−
μ
)
(
x
−
μ
)
T
A
T
]
=
Var
[
x
]
A
T
=
Λ
−
1
A
T
\operatorname{Cov}(x, y)=\mathbb{E}\left[(x-\mu)(A x-A \mu+\epsilon)^{T}\right]=\mathbb{E}\left[(x-\mu)(x-\mu)^{T} A^{T}\right]=\operatorname{Var}[x] A^{T}=\Lambda^{-1} A^{T}
Cov(x,y)=E[(x−μ)(Ax−Aμ+ϵ)T]=E[(x−μ)(x−μ)TAT]=Var[x]AT=Λ−1AT注意到协方差矩阵的对称性,所以
p
(
z
)
=
N
(
(
μ
A
μ
+
b
)
,
(
Λ
−
1
Λ
−
1
A
T
A
Λ
−
1
L
−
1
+
A
Λ
−
1
A
T
)
)
p(z)=\mathcal{N}(\left(\begin{array}{c}\mu \\ A \mu+b\end{array}\right),\left(\begin{array}{cc}\Lambda^{-1} & \Lambda^{-1} A^{T} \\ A \Lambda^{-1} & L^{-1}+A \Lambda^{-1} A^{T}\end{array}\right))
p(z)=N((μAμ+b),(Λ−1AΛ−1Λ−1ATL−1+AΛ−1AT))。根据之前2.3的公式,我们可以得到:
E
[
x
∣
y
]
=
μ
+
Λ
−
1
A
T
(
L
−
1
+
A
Λ
−
1
A
T
)
−
1
(
y
−
A
μ
−
b
)
\mathbb{E}[x|y]=\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b)
E[x∣y]=μ+Λ−1AT(L−1+AΛ−1AT)−1(y−Aμ−b)
V a r [ x ∣ y ] = Λ − 1 − Λ − 1 A T ( L − 1 + A Λ − 1 A T ) − 1 A Λ − 1 Var[x|y]=\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1} Var[x∣y]=Λ−1−Λ−1AT(L−1+AΛ−1AT)−1AΛ−1