频率学派和贝叶斯学派
对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。对已知数据集记为:
X
N
×
p
=
(
x
1
,
x
2
,
⋯
,
x
N
)
T
,
x
i
=
(
x
i
1
,
x
i
2
,
⋯
,
x
i
p
)
T
(式1)
X_{N\times p}=(x_{1},x_{2},\cdots,x_{N})^{T},x_{i}=(x_{i1},x_{i2},\cdots,x_{ip})^{T}\tag{式1}
XN×p=(x1,x2,⋯,xN)T,xi=(xi1,xi2,⋯,xip)T(式1)
这个记号表示有
N
N
N 个样本,每个样本都是
p
p
p 维向量。其中每个观测都是由
p
(
x
∣
θ
)
p(x|\theta)
p(x∣θ) 生成的。
频率派的观点
p ( x ∣ θ ) p(x|\theta) p(x∣θ)中的 θ \theta θ 是一个常量。对于 N N N 个观测来说观测集的概率为 p ( X ∣ θ ) = i i d ∏ i = 1 N p ( x i ∣ θ ) ) p(X|\theta)\mathop{=}\limits _{iid}\prod\limits _{i=1}^{N}p(x_{i}|\theta)) p(X∣θ)iid=i=1∏Np(xi∣θ)) 。为了求 θ \theta θ 的大小,我们采用最大对数似然MLE的方法:
θ M L E = a r g m a x θ log p ( X ∣ θ ) = i i d a r g m a x θ ∑ i = 1 N log p ( x i ∣ θ ) (式2) \theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)\tag{式2} θMLE=θargmaxlogp(X∣θ)iid=θargmaxi=1∑Nlogp(xi∣θ)(式2)
贝叶斯派的观点
贝叶斯学派认为 p ( x ∣ θ ) p(x|\theta) p(x∣θ) 中的 θ \theta θ 不是一个常量。这个 θ \theta θ 满足一个预设的先验的分布 θ ∼ p ( θ ) \theta\sim p(\theta) θ∼p(θ) 。于是根据贝叶斯定理依赖观测集参数的后验可以写成:
p
(
θ
∣
X
)
=
p
(
X
∣
θ
)
⋅
p
(
θ
)
p
(
X
)
=
p
(
X
∣
θ
)
⋅
p
(
θ
)
∫
θ
p
(
X
∣
θ
)
⋅
p
(
θ
)
d
θ
(式3)
p(\theta|X)=\frac{p(X|\theta)\cdot p(\theta)}{p(X)}=\frac{p(X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(X|\theta)\cdot p(\theta)d\theta} \tag{式3}
p(θ∣X)=p(X)p(X∣θ)⋅p(θ)=θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ)(式3)
为了求
θ
\theta
θ 的值,我们要最大化这个参数后验MAP:
θ
M
A
P
=
a
r
g
m
a
x
θ
p
(
θ
∣
X
)
=
a
r
g
m
a
x
θ
p
(
X
∣
θ
)
⋅
p
(
θ
)
(式4)
\theta_{MAP}=\mathop{argmax}\limits _{\theta}p(\theta|X)=\mathop{argmax}\limits _{\theta}p(X|\theta)\cdot p(\theta)\tag{式4}
θMAP=θargmaxp(θ∣X)=θargmaxp(X∣θ)⋅p(θ)(式4)
其中第二个等式项是由于分母和
θ
\theta
θ 没有关系。求解这个
θ
\theta
θ 值后计算
p
(
X
∣
θ
)
⋅
p
(
θ
)
∫
θ
p
(
X
∣
θ
)
⋅
p
(
θ
)
d
θ
\frac{p(X|\theta)\cdot p(\theta)}{\int\limits _{\theta}p(X|\theta)\cdot p(\theta)d\theta}
θ∫p(X∣θ)⋅p(θ)dθp(X∣θ)⋅p(θ) ,就得到了参数的后验概率。其中
p
(
X
∣
θ
)
p(X|\theta)
p(X∣θ) 叫似然,是我们的模型分布。得到了参数的后验分布后,我们可以将这个分布用于预测贝叶斯预测:
p
(
x
n
e
w
∣
X
)
=
∫
θ
p
(
x
n
e
w
∣
θ
)
⋅
p
(
θ
∣
X
)
d
θ
(式5)
p(x_{new}|X)=\int\limits _{\theta}p(x_{new}|\theta)\cdot p(\theta|X)d\theta\tag{式5}
p(xnew∣X)=θ∫p(xnew∣θ)⋅p(θ∣X)dθ(式5)
其中积分中的被乘数是模型,乘数是后验分布。
总结
频率派和贝叶斯派分别给出了一系列的机器学习算法。频率派的观点导出了一系列的统计机器学习算法而贝叶斯派导出了概率图理论。在应用频率派的 MLE 方法时最优化理论占有重要地位。而贝叶斯派的算法无论是后验概率的建模还是应用这个后验进行推断时积分占有重要地位。因此采样积分方法如 MCMC 有很多应用。
高斯分布
一维情况 MLE
高斯分布在机器学习中占有举足轻重的作用。在 MLE 方法中:
θ
=
(
μ
,
Σ
)
=
(
μ
,
σ
2
)
,
θ
M
L
E
=
a
r
g
m
a
x
θ
log
p
(
X
∣
θ
)
=
i
i
d
a
r
g
m
a
x
θ
∑
i
=
1
N
log
p
(
x
i
∣
θ
)
(式6)
\theta=(\mu,\Sigma)=(\mu,\sigma^{2}),\quad \theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)\tag{式6}
θ=(μ,Σ)=(μ,σ2),θMLE=θargmaxlogp(X∣θ)iid=θargmaxi=1∑Nlogp(xi∣θ)(式6)
一般地,高斯分布的概率密度函数PDF写为:
p
(
x
∣
μ
,
Σ
)
=
1
(
2
π
)
p
/
2
∣
Σ
∣
1
/
2
e
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
(式7)
p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}\tag{式7}
p(x∣μ,Σ)=(2π)p/2∣Σ∣1/21e−21(x−μ)TΣ−1(x−μ)(式7)
带入 MLE 中我们考虑一维的情况
log
p
(
X
∣
θ
)
=
∑
i
=
1
N
log
p
(
x
i
∣
θ
)
=
∑
i
=
1
N
log
1
2
π
σ
exp
−
(
x
i
−
μ
)
2
2
σ
2
(式8)
\log p(X|\theta)=\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)=\sum\limits _{i=1}^{N}\log\frac{1}{\sqrt{2\pi}\sigma}\exp\cfrac{-(x_{i}-\mu)^{2}}{2\sigma^{2}}\tag{式8}
logp(X∣θ)=i=1∑Nlogp(xi∣θ)=i=1∑Nlog2πσ1exp2σ2−(xi−μ)2(式8)
首先对
μ
\mu
μ 的极值可以得到 :
μ
M
L
E
=
a
r
g
m
a
x
μ
log
p
(
X
∣
θ
)
=
a
r
g
m
a
x
μ
∑
i
=
1
N
(
x
i
−
μ
)
2
(式9)
\mu_{MLE}=\mathop{argmax}\limits _{\mu}\log p(X|\theta)=\mathop{argmax}\limits _{\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}\tag{式9}
μMLE=μargmaxlogp(X∣θ)=μargmaxi=1∑N(xi−μ)2(式9)
于是:
∂
∂
μ
∑
i
=
1
N
(
x
i
−
μ
)
2
=
0
⟶
μ
M
L
E
=
1
N
∑
i
=
1
N
x
i
(式10)
\frac{\partial}{\partial\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}=0\longrightarrow\mu_{MLE}=\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}\tag{式10}
∂μ∂i=1∑N(xi−μ)2=0⟶μMLE=N1i=1∑Nxi(式10)
其次对
θ
\theta
θ 中的另一个参数
σ
\sigma
σ ,有:
σ
M
L
E
=
a
r
g
m
a
x
σ
log
p
(
X
∣
θ
)
=
a
r
g
m
a
x
σ
∑
i
=
1
N
[
−
log
σ
−
1
2
σ
2
(
x
i
−
μ
)
2
]
=
a
r
g
m
i
n
σ
∑
i
=
1
N
[
log
σ
+
1
2
σ
2
(
x
i
−
μ
)
2
]
(式11)
\begin{aligned} \sigma_{MLE}=\mathop{argmax}\limits _{\sigma}\log p(X|\theta)&=\mathop{argmax}\limits _{\sigma}\sum\limits _{i=1}^{N}[-\log\sigma-\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]\\ &=\mathop{argmin}\limits _{\sigma}\sum\limits _{i=1}^{N}[\log\sigma+\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}] \end{aligned}\tag{式11}
σMLE=σargmaxlogp(X∣θ)=σargmaxi=1∑N[−logσ−2σ21(xi−μ)2]=σargmini=1∑N[logσ+2σ21(xi−μ)2](式11)
于是:
∂
∂
σ
∑
i
=
1
N
[
log
σ
+
1
2
σ
2
(
x
i
−
μ
)
2
]
=
0
⟶
σ
M
L
E
2
=
1
N
∑
i
=
1
N
(
x
i
−
μ
)
2
(式12)
\frac{\partial}{\partial\sigma}\sum\limits _{i=1}^{N}[\log\sigma+\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]=0\longrightarrow\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}\tag{式12}
∂σ∂i=1∑N[logσ+2σ21(xi−μ)2]=0⟶σMLE2=N1i=1∑N(xi−μ)2(式12)
值得注意的是,上面的推导中,首先对
μ
\mu
μ 求 MLE, 然后利用这个结果求
σ
M
L
E
\sigma_{MLE}
σMLE ,因此可以预期的是对数据集求期望时
E
D
[
μ
M
L
E
]
\mathbb{E}_{\mathcal{D}}[\mu_{MLE}]
ED[μMLE] 是无偏差的:
E
D
[
μ
M
L
E
]
=
E
D
[
1
N
∑
i
=
1
N
x
i
]
=
1
N
∑
i
=
1
N
E
D
[
x
i
]
=
μ
(式13)
\mathbb{E}_{\mathcal{D}}[\mu_{MLE}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\frac{1}{N}\sum\limits _{i=1}^{N}\mathbb{E}_{\mathcal{D}}[x_{i}]=\mu\tag{式13}
ED[μMLE]=ED[N1i=1∑Nxi]=N1i=1∑NED[xi]=μ(式13)
但是当对
σ
M
L
E
\sigma_{MLE}
σMLE 求 期望的时候由于使用了单个数据集的
μ
M
L
E
\mu_{MLE}
μMLE,因此对所有数据集求期望的时候我们会发现
σ
M
L
E
\sigma_{MLE}
σMLE 是 有偏的:
E
D
[
σ
M
L
E
2
]
=
E
D
[
1
N
∑
i
=
1
N
(
x
i
−
μ
M
L
E
)
2
]
=
E
D
[
1
N
∑
i
=
1
N
(
x
i
2
−
2
x
i
μ
M
L
E
+
μ
M
L
E
2
)
=
E
D
[
1
N
∑
i
=
1
N
x
i
2
−
μ
M
L
E
2
]
=
E
D
[
1
N
∑
i
=
1
N
x
i
2
−
μ
2
+
μ
2
−
μ
M
L
E
2
]
=
E
D
[
1
N
∑
i
=
1
N
x
i
2
−
μ
2
]
−
E
D
[
μ
M
L
E
2
−
μ
2
]
=
σ
2
−
(
E
D
[
μ
M
L
E
2
]
−
μ
2
)
=
σ
2
−
(
E
D
[
μ
M
L
E
2
]
−
E
D
2
[
μ
M
L
E
]
)
=
σ
2
−
V
a
r
[
μ
M
L
E
]
=
σ
2
−
V
a
r
[
1
N
∑
i
=
1
N
x
i
]
=
σ
2
−
1
N
2
∑
i
=
1
N
V
a
r
[
x
i
]
=
N
−
1
N
σ
2
(式14)
\begin{aligned} \mathbb{E}_{\mathcal{D}}[\sigma_{MLE}^{2}]&=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{MLE})^{2}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}^{2}-2x_{i}\mu_{MLE}+\mu_{MLE}^{2})\\ &=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu_{MLE}^{2}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu^{2}+\mu^{2}-\mu_{MLE}^{2}]\\ &= \mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}^{2}-\mu^{2}]-\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}-\mu^{2}]=\sigma^{2}-(\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}]-\mu^{2})\\ &=\sigma^{2}-(\mathbb{E}_{\mathcal{D}}[\mu_{MLE}^{2}]-\mathbb{E}_{\mathcal{D}}^{2}[\mu_{MLE}])=\sigma^{2}-Var[\mu_{MLE}]\\ &=\sigma^{2}-Var[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\sigma^{2}-\frac{1}{N^{2}}\sum\limits _{i=1}^{N}Var[x_{i}]=\frac{N-1}{N}\sigma^{2} \end{aligned}\tag{式14}
ED[σMLE2]=ED[N1i=1∑N(xi−μMLE)2]=ED[N1i=1∑N(xi2−2xiμMLE+μMLE2)=ED[N1i=1∑Nxi2−μMLE2]=ED[N1i=1∑Nxi2−μ2+μ2−μMLE2]=ED[N1i=1∑Nxi2−μ2]−ED[μMLE2−μ2]=σ2−(ED[μMLE2]−μ2)=σ2−(ED[μMLE2]−ED2[μMLE])=σ2−Var[μMLE]=σ2−Var[N1i=1∑Nxi]=σ2−N21i=1∑NVar[xi]=NN−1σ2(式14)
所以:
σ
^
2
=
1
N
−
1
∑
i
=
1
N
(
x
i
−
μ
)
2
(式15)
\hat{\sigma}^{2}=\frac{1}{N-1}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}\tag{式15}
σ^2=N−11i=1∑N(xi−μ)2(式15)
多维情况
多维高斯分布表达式为:
p
(
x
∣
μ
,
Σ
)
=
1
(
2
π
)
p
/
2
∣
Σ
∣
1
/
2
e
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
(式16)
p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}\tag{式16}
p(x∣μ,Σ)=(2π)p/2∣Σ∣1/21e−21(x−μ)TΣ−1(x−μ)(式16)
其中
x
,
μ
∈
R
p
,
Σ
∈
R
p
×
p
x,\mu\in\mathbb{R}^{p},\Sigma\in\mathbb{R}^{p\times p}
x,μ∈Rp,Σ∈Rp×p ,
Σ
\Sigma
Σ 为协方差矩阵,一般而言也是半正定矩阵。这里我们只考虑正定矩阵。首先我们处理指数上的数字,指数上的数字可以记为
x
x
x 和
μ
\mu
μ 之间的马氏距离。对于对称的协方差矩阵可进行特征值分解,
Σ
=
U
Λ
U
T
=
(
u
1
,
u
2
,
⋯
,
u
p
)
d
i
a
g
(
λ
i
)
(
u
1
,
u
2
,
⋯
,
u
p
)
T
=
∑
i
=
1
p
u
i
λ
i
u
i
T
\Sigma=U\Lambda U^{T}=(u_{1},u_{2},\cdots,u_{p})diag(\lambda_{i})(u_{1},u_{2},\cdots,u_{p})^{T}=\sum\limits _{i=1}^{p}u_{i}\lambda_{i}u_{i}^{T}
Σ=UΛUT=(u1,u2,⋯,up)diag(λi)(u1,u2,⋯,up)T=i=1∑puiλiuiT ,于是:
Σ
−
1
=
∑
i
=
1
p
u
i
1
λ
i
u
i
T
(式17)
\Sigma^{-1}=\sum\limits _{i=1}^{p}u_{i}\frac{1}{\lambda_{i}}u_{i}^{T}\tag{式17}
Σ−1=i=1∑puiλi1uiT(式17)
Δ
=
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
=
∑
i
=
1
p
(
x
−
μ
)
T
u
i
1
λ
i
u
i
T
(
x
−
μ
)
=
∑
i
=
1
p
y
i
2
λ
i
(式18)
\Delta=(x-\mu)^{T}\Sigma^{-1}(x-\mu)=\sum\limits _{i=1}^{p}(x-\mu)^{T}u_{i}\frac{1}{\lambda_{i}}u_{i}^{T}(x-\mu)=\sum\limits _{i=1}^{p}\frac{y_{i}^{2}}{\lambda_{i}}\tag{式18}
Δ=(x−μ)TΣ−1(x−μ)=i=1∑p(x−μ)Tuiλi1uiT(x−μ)=i=1∑pλiyi2(式18)
我们注意到 y i y_{i} yi 是 x − μ x-\mu x−μ 在特征向量 u i u_{i} ui 上的投影长度,因此上式子就是 Δ \Delta Δ 取不同值时的同心椭圆。
下面我们看多维高斯模型在实际应用时的两个问题
-
参数 Σ , μ \Sigma,\mu Σ,μ 的自由度为 O ( p 2 ) O(p^{2}) O(p2) 对于维度很高的数据其自由度太高。解决方案:高自由度的来源是 Σ \Sigma Σ 有 p ( p + 1 ) 2 \frac{p(p+1)}{2} 2p(p+1) 个自由参数,可以假设其是对角矩阵,甚至在各向同性假设中假设其对角线上的元素都相同。前一种的算法有 Factor Analysis,后一种有概率 PCA(p-PCA) 。
-
第二个问题是单个高斯分布是单峰的,对有多个峰的数据分布不能得到好的结果。解决方案:高斯混合GMM 模型。
下面对多维高斯分布的常用定理进行介绍。
我们记 x = ( x 1 , x 2 , ⋯ , x p ) T = ( x a , m × 1 , x b , n × 1 ) T , μ = ( μ a , m × 1 , μ b , n × 1 ) , Σ = ( Σ a a Σ a b Σ b a Σ b b ) x=(x_1, x_2,\cdots,x_p)^T=(x_{a,m\times 1}, x_{b,n\times1})^T,\mu=(\mu_{a,m\times1}, \mu_{b,n\times1}),\Sigma=\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix} x=(x1,x2,⋯,xp)T=(xa,m×1,xb,n×1)T,μ=(μa,m×1,μb,n×1),Σ=(ΣaaΣbaΣabΣbb),已知 x ∼ N ( μ , Σ ) x\sim\mathcal{N}(\mu,\Sigma) x∼N(μ,Σ)。
首先是一个高斯分布的定理:
定理:已知 x ∼ N ( μ , Σ ) , y ∼ A x + b x\sim\mathcal{N}(\mu,\Sigma), y\sim Ax+b x∼N(μ,Σ),y∼Ax+b,那么 y ∼ N ( A μ + b , A Σ A T ) y\sim\mathcal{N}(A\mu+b, A\Sigma A^T) y∼N(Aμ+b,AΣAT)。
证明: E [ y ] = E [ A x + b ] = A E [ x ] + b = A μ + b \mathbb{E}[y]=\mathbb{E}[Ax+b]=A\mathbb{E}[x]+b=A\mu+b E[y]=E[Ax+b]=AE[x]+b=Aμ+b, V a r [ y ] = V a r [ A x + b ] = V a r [ A x ] = A ⋅ V a r [ x ] ⋅ A T Var[y]=Var[Ax+b]=Var[Ax]=A\cdot Var[x]\cdot A^T Var[y]=Var[Ax+b]=Var[Ax]=A⋅Var[x]⋅AT。
下面利用这个定理得到 p ( x a ) , p ( x b ) , p ( x a ∣ x b ) , p ( x b ∣ x a ) p(x_a),p(x_b),p(x_a|x_b),p(x_b|x_a) p(xa),p(xb),p(xa∣xb),p(xb∣xa) 这四个量。
-
x a = ( I m × m O m × n ) ) ( x a x b ) x_a=\begin{pmatrix}\mathbb{I}_{m\times m}&\mathbb{O}_{m\times n})\end{pmatrix}\begin{pmatrix}x_a\\x_b\end{pmatrix} xa=(Im×mOm×n))(xaxb),代入定理中得到:
E [ x a ] = ( I O ) ( μ a μ b ) = μ a V a r [ x a ] = ( I O ) ( Σ a a Σ a b Σ b a Σ b b ) ( I O ) = Σ a a (式19) \begin{aligned} & \mathbb{E}[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}=\mu_a\\ &Var[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}\mathbb{I}\\\mathbb{O}\end{pmatrix}=\Sigma_{aa} \end{aligned}\tag{式19} E[xa]=(IO)(μaμb)=μaVar[xa]=(IO)(ΣaaΣbaΣabΣbb)(IO)=Σaa(式19)
所以 x a ∼ N ( μ a , Σ a a ) x_a\sim\mathcal{N}(\mu_a,\Sigma_{aa}) xa∼N(μa,Σaa)。 -
同样的, x b ∼ N ( μ b , Σ b b ) x_b\sim\mathcal{N}(\mu_b,\Sigma_{bb}) xb∼N(μb,Σbb)。
-
对于两个条件概率,我们引入三个量:
x b ⋅ a = x b − Σ b a Σ a a − 1 x a μ b ⋅ a = μ b − Σ b a Σ a a − 1 μ a Σ b b ⋅ a = Σ b b − Σ b a Σ a a − 1 Σ a b (式20) x_{b\cdot a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a\\ \mu_{b\cdot a}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a\\ \Sigma_{bb\cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}\tag{式20} xb⋅a=xb−ΣbaΣaa−1xaμb⋅a=μb−ΣbaΣaa−1μaΣbb⋅a=Σbb−ΣbaΣaa−1Σab(式20)
特别的,最后一个式子叫做 Σ b b \Sigma_{bb} Σbb 的 Schur Complementary。可以看到:
x b ⋅ a = ( − Σ b a Σ a a − 1 I n × n ) ( x a x b ) (式21) x_{b\cdot a}=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}x_a\\x_b\end{pmatrix}\tag{式21} xb⋅a=(−ΣbaΣaa−1In×n)(xaxb)(式21)
所以:
E [ x b ⋅ a ] = ( − Σ b a Σ a a − 1 I n × n ) ( μ a μ b ) = μ b ⋅ a V a r [ x b ⋅ a ] = ( − Σ b a Σ a a − 1 I n × n ) ( Σ a a Σ a b Σ b a Σ b b ) ( − Σ a a − 1 Σ b a T I n × n ) = Σ b b ⋅ a (式22) \begin{aligned} &\mathbb{E}[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}=\mu_{b\cdot a}\\ &Var[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}-\Sigma_{aa}^{-1}\Sigma_{ba}^T\\\mathbb{I}_{n\times n}\end{pmatrix}=\Sigma_{bb\cdot a} \end{aligned}\tag{式22} E[xb⋅a]=(−ΣbaΣaa−1In×n)(μaμb)=μb⋅aVar[xb⋅a]=(−ΣbaΣaa−1In×n)(ΣaaΣbaΣabΣbb)(−Σaa−1ΣbaTIn×n)=Σbb⋅a(式22)
利用这三个量可以得到 x b = x b ⋅ a + Σ b a Σ a a − 1 x a x_b=x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a xb=xb⋅a+ΣbaΣaa−1xa。因此:
E [ x b ∣ x a ] = μ b ⋅ a + Σ b a Σ a a − 1 x a V a r [ x b ∣ x a ] = Σ b b ⋅ a (式23) \begin{aligned} &\mathbb{E}[x_b|x_a]=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a\\ & Var[x_b|x_a]=\Sigma_{bb\cdot a} \end{aligned}\tag{式23} E[xb∣xa]=μb⋅a+ΣbaΣaa−1xaVar[xb∣xa]=Σbb⋅a(式23)
这里同样用到了定理。 -
同样:
x a ⋅ b = x a − Σ a b Σ b b − 1 x b μ a ⋅ b = μ a − Σ a b Σ b b − 1 μ b Σ a a ⋅ b = Σ a a − Σ a b Σ b b − 1 Σ b a (式24) \begin{aligned} &x_{a\cdot b}=x_a-\Sigma_{ab}\Sigma_{bb}^{-1}x_b\\ &\mu_{a\cdot b}=\mu_a-\Sigma_{ab}\Sigma_{bb}^{-1}\mu_b\\ &\Sigma_{aa\cdot b}=\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba}\tag{式24} \end{aligned} xa⋅b=xa−ΣabΣbb−1xbμa⋅b=μa−ΣabΣbb−1μbΣaa⋅b=Σaa−ΣabΣbb−1Σba(式24)
所以:
E [ x a ∣ x b ] = μ a ⋅ b + Σ a b Σ b b − 1 x b , V a r [ x a ∣ x b ] = Σ a a ⋅ b (式25) \mathbb{E}[x_a|x_b]=\mu_{a\cdot b}+\Sigma_{ab}\Sigma_{bb}^{-1}x_b\quad, \qquad Var[x_a|x_b]=\Sigma_{aa\cdot b}\tag{式25} E[xa∣xb]=μa⋅b+ΣabΣbb−1xb,Var[xa∣xb]=Σaa⋅b(式25)
下面利用上边四个量,求解线性模型:
已知: p ( x ) = N ( μ , Λ − 1 ) , p ( y ∣ x ) = N ( A x + b , L − 1 ) p(x)=\mathcal{N}(\mu,\Lambda^{-1}),p(y|x)=\mathcal{N}(Ax+b,L^{-1}) p(x)=N(μ,Λ−1),p(y∣x)=N(Ax+b,L−1),求解: p ( y ) , p ( x ∣ y ) p(y),p(x|y) p(y),p(x∣y)。
解:令 y = A x + b + ϵ , ϵ ∼ N ( 0 , L − 1 ) y=Ax+b+\epsilon,\epsilon\sim\mathcal{N}(0,L^{-1}) y=Ax+b+ϵ,ϵ∼N(0,L−1),所以 E [ y ] = E [ A x + b + ϵ ] = A μ + b \mathbb{E}[y]=\mathbb{E}[Ax+b+\epsilon]=A\mu+b E[y]=E[Ax+b+ϵ]=Aμ+b, V a r [ y ] = A Λ − 1 A T + L − 1 Var[y]=A \Lambda^{-1}A^T+L^{-1} Var[y]=AΛ−1AT+L−1,因此:
p ( y ) = N ( A μ + b , L − 1 + A Λ − 1 A T ) p(y)=\mathcal{N}(A\mu+b,L^{-1}+A\Lambda^{-1}A^T) p(y)=N(Aμ+b,L−1+AΛ−1AT)
引入 z = ( x y ) z=\begin{pmatrix}x\\y\end{pmatrix} z=(xy),我们可以得到 C o v [ x , y ] = E [ ( x − E [ x ] ) ( y − E [ y ] ) T ] Cov[x,y]=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])^T] Cov[x,y]=E[(x−E[x])(y−E[y])T]。对于这个协方差可以直接计算:
C o v ( x , y ) = E [ ( x − μ ) ( A x − A μ + ϵ ) T ] = E [ ( x − μ ) ( x − μ ) T A T ] = V a r [ x ] A T = Λ − 1 A T \begin{aligned} Cov(x,y)&=\mathbb{E}[(x-\mu)(Ax-A\mu+\epsilon)^T]=\mathbb{E}[(x-\mu)(x-\mu)^TA^T]=Var[x]A^T=\Lambda^{-1}A^T \end{aligned} Cov(x,y)=E[(x−μ)(Ax−Aμ+ϵ)T]=E[(x−μ)(x−μ)TAT]=Var[x]AT=Λ−1AT
注意到协方差矩阵的对称性,所以 p ( z ) = N ( μ A μ + b ) , ( Λ − 1 Λ − 1 A T A Λ − 1 L − 1 + A Λ − 1 A T ) ) p(z)=\mathcal{N}\begin{pmatrix}\mu\\A\mu+b\end{pmatrix},\begin{pmatrix}\Lambda^{-1}&\Lambda^{-1}A^T\\A\Lambda^{-1}&L^{-1}+A\Lambda^{-1}A^T\end{pmatrix}) p(z)=N(μAμ+b),(Λ−1AΛ−1Λ−1ATL−1+AΛ−1AT))。根据之前的公式,我们可以得到:
E [ x ∣ y ] = μ + Λ − 1 A T ( L − 1 + A Λ − 1 A T ) − 1 ( y − A μ − b ) \mathbb{E}[x|y]=\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b) E[x∣y]=μ+Λ−1AT(L−1+AΛ−1AT)−1(y−Aμ−b)V a r [ x ∣ y ] = Λ − 1 − Λ − 1 A T ( L − 1 + A Λ − 1 A T ) − 1 A Λ − 1 Var[x|y]=\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1} Var[x∣y]=Λ−1−Λ−1AT(L−1+AΛ−1AT)−1AΛ−1