文章目录
1.高斯分布参数估计/样本数据定义
定义数据样本
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
N
,
y
N
)
}
,
其
中
x
i
∈
R
p
,
y
i
∈
R
,
其
中
x
i
=
1
,
2
,
.
.
.
,
N
D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\},其中x_i\in \mathbb{R}^p,y_i\in \mathbb{R},其中x_i = 1,2,...,N
D={(x1,y1),(x2,y2),...,(xN,yN)},其中xi∈Rp,yi∈R,其中xi=1,2,...,N
X
=
(
x
1
,
x
2
,
.
.
.
,
x
N
)
T
=
(
x
1
T
x
2
T
⋮
x
N
T
)
=
(
x
11
x
12
.
.
.
x
1
p
x
21
x
22
.
.
.
x
2
p
⋮
⋮
⋮
⋮
x
N
1
x
N
2
.
.
.
x
N
p
)
N
×
P
(1)
X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P} \tag 1
X=(x1,x2,...,xN)T=⎝⎜⎜⎜⎛x1Tx2T⋮xNT⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛x11x21⋮xN1x12x22⋮xN2......⋮...x1px2p⋮xNp⎠⎟⎟⎟⎞N×P(1)
其中
x
i
x_i
xi是P维列向量,且
x
i
∼
N
(
μ
,
Σ
)
x_i \sim N(\mu,\Sigma)
xi∼N(μ,Σ),我们可以看出
θ
=
N
(
μ
,
Σ
)
\theta=N(\mu,\Sigma)
θ=N(μ,Σ)
2.极大似然法求 μ M L E , σ M L E 2 \mu_{MLE},\sigma^2_{MLE} μMLE,σMLE2
2.1 L ( θ ) 表 达 式 L(\theta)表达式 L(θ)表达式
我们知道每一个单变量
x
i
x_i
xi服从高斯分布,由高斯分布密度函数为:
P
(
x
i
∣
θ
)
=
1
2
π
σ
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
(2)
P(x_i|\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp^{(-\frac{(x-\mu)^2}{2\sigma^2})} \tag 2
P(xi∣θ)=2πσ1exp(−2σ2(x−μ)2)(2)
我们希望通过观察到的数据来计算参数
θ
\theta
θ的值,那么我们可以使用极大似然估计法求,
由于我们假设
x
i
是
服
从
独
立
同
分
布
的
,
所
以
可
得
如
下
:
x_i是服从独立同分布的,所以可得如下:
xi是服从独立同分布的,所以可得如下:
θ
M
L
E
=
a
r
g
m
a
x
θ
log
∏
i
=
1
N
p
(
x
i
∣
θ
)
=
a
r
g
m
a
x
θ
∑
i
=
1
N
log
p
(
x
i
∣
θ
)
(3)
\theta_{MLE}=argmax_{\theta} \log \prod_{i=1}^{N} p(x_i|\theta)=argmax_{\theta}\sum_{i=1}^{N} \log p(x_i|\theta) \tag3
θMLE=argmaxθlogi=1∏Np(xi∣θ)=argmaxθi=1∑Nlogp(xi∣θ)(3)
代入
P
(
x
i
∣
θ
)
P(x_i|\theta)
P(xi∣θ)可得:
L
(
θ
)
=
a
r
g
m
a
x
θ
∑
i
=
1
N
log
[
1
2
π
]
−
∑
i
=
1
N
log
[
σ
]
−
∑
i
=
1
N
(
x
i
−
μ
)
2
2
σ
2
(4)
L(\theta)=argmax_{\theta}\sum_{i=1}^{N} \log [\frac{1}{\sqrt{2\pi}}]-\sum_{i=1}^{N}\log[\sigma]-\sum_{i=1}^{N}\frac{(x_i-\mu)^2}{2\sigma^2} \tag4
L(θ)=argmaxθi=1∑Nlog[2π1]−i=1∑Nlog[σ]−i=1∑N2σ2(xi−μ)2(4)
为方便计算,我们令:①=
∑
i
=
1
N
log
[
1
2
π
]
\sum_{i=1}^{N} \log [\frac{1}{\sqrt{2\pi}}]
∑i=1Nlog[2π1];②=
∑
i
=
1
N
log
[
σ
]
\sum_{i=1}^{N}\log[\sigma]
∑i=1Nlog[σ];③=
∑
i
=
1
N
(
x
i
−
μ
)
2
2
σ
2
\sum_{i=1}^{N}\frac{(x_i-\mu)^2}{2\sigma^2}
∑i=1N2σ2(xi−μ)2
那么
L
(
θ
)
=
①
−
②
−
③
L(\theta)=①-②-③
L(θ)=①−②−③
2.2 极大似然法求 μ M L E \mu_{MLE} μMLE
由极大似然法我们可以得到只需要将
L
(
θ
)
L(\theta)
L(θ)对
μ
\mu
μ求偏导,并令其为零。
∂
L
(
θ
)
∂
μ
=
0
(5)
\frac{\partial {L(\theta)}}{\partial \mu}=0 \tag5
∂μ∂L(θ)=0(5)
展开上式可得如下:
∂
L
(
θ
)
∂
μ
=
0
−
0
−
∑
i
=
1
N
2
(
x
i
−
μ
)
2
σ
2
(
−
1
)
=
0
(6)
\frac{\partial {L(\theta)}}{\partial \mu}=0-0-\sum_{i=1}^{N}\frac{2(x_i-\mu)}{2\sigma^2}(-1)=0 \tag6
∂μ∂L(θ)=0−0−i=1∑N2σ22(xi−μ)(−1)=0(6)
整理上式可得:
∑
i
=
1
N
(
x
i
−
μ
)
=
0
(7)
\sum_{i=1}^{N}(x_i-\mu)=0 \tag7
i=1∑N(xi−μ)=0(7)
∑
i
=
1
N
x
i
=
∑
i
=
1
N
μ
=
N
μ
(8)
\sum_{i=1}^{N}x_i=\sum_{i=1}^{N}\mu=N \mu \tag8
i=1∑Nxi=i=1∑Nμ=Nμ(8)
结
论
:
μ
M
L
E
=
∑
i
=
1
N
x
i
N
(9)
结论:\mu_{MLE}=\frac{\sum_{i=1}^{N}x_i}{N} \tag9
结论:μMLE=N∑i=1Nxi(9)
2.3无偏估计 μ M L E \mu_{MLE} μMLE
由概率知识可得,如果我们求得
E
[
μ
M
L
E
]
=
μ
;
那
么
μ
M
L
E
就
是
无
偏
估
计
;
\mathbb{E}[\mu_{MLE}]=\mu;那么\mu_{MLE}就是无偏估计;
E[μMLE]=μ;那么μMLE就是无偏估计;
$
E
[
μ
M
L
E
]
=
E
[
∑
i
=
1
N
x
i
N
]
=
1
N
E
[
∑
i
=
1
N
x
i
]
=
1
N
N
μ
=
μ
(10)
\mathbb{E}[\mu_{MLE}]=\mathbb{E}[\frac{\sum_{i=1}^{N}x_i}{N}]=\frac{1}{N}\mathbb{E}[\sum_{i=1}^{N}x_i]=\frac{1}{N}N\mu=\mu \tag{10}
E[μMLE]=E[N∑i=1Nxi]=N1E[i=1∑Nxi]=N1Nμ=μ(10)
2.4 极大似然法求 σ M L E 2 \sigma^2_{MLE} σMLE2
由极大似然法我们可以得到只需要将
L
(
θ
)
L(\theta)
L(θ)对
σ
\sigma
σ求偏导,并令其为零。
∂
L
(
θ
)
∂
σ
=
0
(11)
\frac{\partial {L(\theta)}}{\partial \sigma}=0 \tag{11}
∂σ∂L(θ)=0(11)
展开上式可得如下:
∂
L
(
θ
)
∂
σ
=
0
−
∑
i
=
1
N
1
σ
+
∑
i
=
1
N
(
x
i
−
μ
)
2
σ
−
3
(12)
\frac{\partial {L(\theta)}}{\partial \sigma}=0-\sum_{i=1}^{N}\frac{1}{\sigma}+\sum_{i=1}^{N}(x_i-\mu)^2\sigma^{-3}\tag{12}
∂σ∂L(θ)=0−i=1∑Nσ1+i=1∑N(xi−μ)2σ−3(12)
整理上式可得:
结
论
:
σ
M
L
E
2
=
1
N
∑
i
=
1
N
(
x
i
−
μ
M
L
E
)
2
(13)
结论:\sigma^2_{MLE}=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu_{MLE})^2 \tag{13}
结论:σMLE2=N1i=1∑N(xi−μMLE)2(13)
2.5 有偏估计 σ M L E 2 \sigma^2_{MLE} σMLE2
由极大似然法可得:
σ
M
L
E
2
=
1
N
∑
i
=
1
N
(
x
i
−
μ
M
L
E
)
2
=
1
N
∑
i
=
1
N
x
i
2
+
1
N
∑
i
=
1
N
μ
M
L
E
2
−
1
N
∑
i
=
1
N
2
x
i
μ
M
L
E
(14)
\sigma^2_{MLE}=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu_{MLE})^2=\frac{1}{N}\sum_{i=1}^{N}x_i^2+\frac{1}{N}\sum_{i=1}^{N}\mu_{MLE}^2-\frac{1}{N}\sum_{i=1}^{N}2x_i\mu_{MLE} \tag{14}
σMLE2=N1i=1∑N(xi−μMLE)2=N1i=1∑Nxi2+N1i=1∑NμMLE2−N1i=1∑N2xiμMLE(14)
由于
μ
M
L
E
=
∑
i
=
1
N
x
i
N
\mu_{MLE}=\frac{\sum_{i=1}^{N}x_i}{N}
μMLE=N∑i=1Nxi所以可得如下:
σ
M
L
E
2
=
1
N
∑
i
=
1
N
x
i
2
+
N
N
μ
M
L
E
2
−
2
μ
M
L
E
2
=
1
N
∑
i
=
1
N
x
i
2
−
μ
M
L
E
2
(15)
\sigma^2_{MLE}=\frac{1}{N}\sum_{i=1}^{N}x_i^2+\frac{N}{N}\mu_{MLE}^2-2\mu_{MLE} ^2=\frac{1}{N}\sum_{i=1}^{N}x_i^2-\mu_{MLE} ^2\tag{15}
σMLE2=N1i=1∑Nxi2+NNμMLE2−2μMLE2=N1i=1∑Nxi2−μMLE2(15)
由期望方差关系公式可得:
E
[
X
2
]
−
[
E
(
X
)
]
2
=
D
(
X
)
(16)
\mathbb{E}[X^2]-[\mathbb{E}(X)]^2=\mathbb{D}(X) \tag{16}
E[X2]−[E(X)]2=D(X)(16)
E
[
1
N
∑
i
=
1
N
x
i
2
]
=
1
N
∑
i
=
1
N
E
[
x
i
2
]
=
1
N
∑
i
=
1
N
(
[
E
(
x
i
)
]
2
+
D
(
x
i
)
)
=
1
N
∑
i
=
1
N
[
μ
2
+
σ
2
]
=
μ
2
+
σ
2
(17)
\mathbb{E}[\frac{1}{N}\sum_{i=1}^{N}x_i^2]=\frac{1}{N}\sum_{i=1}^{N}\mathbb{E}[x_i^2]=\frac{1}{N}\sum_{i=1}^{N}([\mathbb{E}{(x_i)]}^2+D(x_i))=\frac{1}{N}\sum_{i=1}^{N}[\mu^2+\sigma^2]=\mu^2+\sigma^2 \tag{17}
E[N1i=1∑Nxi2]=N1i=1∑NE[xi2]=N1i=1∑N([E(xi)]2+D(xi))=N1i=1∑N[μ2+σ2]=μ2+σ2(17)
E
[
μ
M
L
E
2
]
=
(
E
(
μ
M
L
E
)
)
2
+
D
(
μ
M
L
E
)
=
μ
2
+
D
(
∑
i
=
1
N
x
i
N
)
=
μ
2
+
1
N
2
∑
i
=
1
N
D
(
x
i
)
=
μ
2
+
1
N
σ
2
(18)
\mathbb{E}[\mu_{MLE} ^2]=(\mathbb{E}(\mu_{MLE}))^2+D(\mu_{MLE})=\mu^2+D(\frac{\sum_{i=1}^{N}x_i}{N})=\mu^2+\frac{1}{N^2}\sum_{i=1}^{N}D(x_i)=\mu^2+\frac{1}{N}\sigma^2 \tag{18}
E[μMLE2]=(E(μMLE))2+D(μMLE)=μ2+D(N∑i=1Nxi)=μ2+N21i=1∑ND(xi)=μ2+N1σ2(18)
E
[
σ
M
L
E
2
]
=
μ
2
+
σ
2
−
(
μ
2
+
1
N
σ
2
)
=
N
−
1
N
σ
2
(19)
\mathbb{E}[\sigma^2_{MLE}]=\mu^2+\sigma^2-(\mu^2+\frac{1}{N}\sigma^2)=\frac{N-1}{N}\sigma^2 \tag{19}
E[σMLE2]=μ2+σ2−(μ2+N1σ2)=NN−1σ2(19)
故
:
E
[
σ
M
L
E
2
]
≠
σ
2
(20)
故:\mathbb{E}[\sigma^2_{MLE}]≠\sigma^2 \tag{20}
故:E[σMLE2]=σ2(20)
结
论
:
σ
M
L
E
2
是
有
偏
估
计
结论:\sigma^2_{MLE}是有偏估计
结论:σMLE2是有偏估计
注:我们在求
σ
M
L
E
2
时
,
我
们
用
的
是
μ
M
L
E
,
而
不
是
μ
,
而
μ
M
L
E
是
我
们
通
过
样
本
数
据
来
生
成
的
\sigma^2_{MLE}时,我们用的是\mu_{MLE},而不是\mu,而\mu_{MLE}是我们通过样本数据来生成的
σMLE2时,我们用的是μMLE,而不是μ,而μMLE是我们通过样本数据来生成的,那么它就一定会出现部分误差,并且用局部样本去估算整体样本时会偏小,无法完全覆盖整个样本。所以,我们在高斯正太分布中,利用极大似然估计求出来的
σ
M
L
E
2
\sigma^2_{MLE}
σMLE2偏小。
3.多变量的高斯分布
3.1 多变量的高斯分布样本定义:
多变量的高斯分布
X
∼
N
(
μ
,
Σ
)
X\sim N(\mu,\Sigma)
X∼N(μ,Σ),其概率密度函数如下:
P
(
x
i
∣
θ
)
=
1
(
2
π
)
p
2
∣
Σ
∣
1
2
e
x
p
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
(21)
P(x_i|\theta)=\frac{1}{{(2\pi)^{\frac{p}{2}}}|\Sigma|^\frac{1}{2}}exp^{(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))} \tag {21}
P(xi∣θ)=(2π)2p∣Σ∣211exp(−21(x−μ)TΣ−1(x−μ))(21)
X
=
(
x
1
,
x
2
,
.
.
.
,
x
N
)
T
=
(
x
1
T
x
2
T
⋮
x
N
T
)
P
×
1
=
(
x
11
x
12
.
.
.
x
1
p
x
21
x
22
.
.
.
x
2
p
⋮
⋮
⋮
⋮
x
N
1
x
N
2
.
.
.
x
N
p
)
N
×
P
(22)
X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}_{P\times 1}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P} \tag {22}
X=(x1,x2,...,xN)T=⎝⎜⎜⎜⎛x1Tx2T⋮xNT⎠⎟⎟⎟⎞P×1=⎝⎜⎜⎜⎛x11x21⋮xN1x12x22⋮xN2......⋮...x1px2p⋮xNp⎠⎟⎟⎟⎞N×P(22)
Σ
=
(
σ
11
σ
12
.
.
.
σ
1
p
σ
21
σ
22
.
.
.
σ
2
p
⋮
⋮
⋮
⋮
σ
p
1
σ
p
2
.
.
.
σ
p
p
)
p
×
P
;
μ
=
(
μ
1
T
μ
2
T
⋮
μ
p
T
)
P
×
1
(23)
\Sigma=\begin{pmatrix} \sigma_{11}&\sigma_{12}&...&\sigma_{1p}\\\sigma_{21}&\sigma_{22}&...&\sigma_{2p}\\\vdots&\vdots&\vdots&\vdots\\\sigma_{p1}&\sigma_{p2}&...&\sigma_{pp}\end{pmatrix}_{p \times P} ;\mu=\begin{pmatrix} \mu_1^T\\\mu_2^T\\\vdots\\\mu_p^T \end{pmatrix}_{P\times 1}\tag {23}
Σ=⎝⎜⎜⎜⎛σ11σ21⋮σp1σ12σ22⋮σp2......⋮...σ1pσ2p⋮σpp⎠⎟⎟⎟⎞p×P;μ=⎝⎜⎜⎜⎛μ1Tμ2T⋮μpT⎠⎟⎟⎟⎞P×1(23)
注:我们一般默认为
Σ
\Sigma
Σ为半正定矩阵,这里为了方便计算,我们假设
Σ
\Sigma
Σ为正定矩阵。
3.2马氏距离
对于多元高斯分布,我们认为马氏距离L(实数)为:
L
=
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
(24)
L=(x-\mu)^T\Sigma^{-1}(x-\mu) \tag {24}
L=(x−μ)TΣ−1(x−μ)(24)
由于
Σ
\Sigma
Σ为正定矩阵,故可以对其进行特征值分解:
Σ
=
U
Λ
U
T
;
U
T
U
=
U
U
T
=
I
;
Λ
=
d
i
a
g
(
λ
i
)
;
i
=
1
,
2
,
.
.
.
,
N
;
U
=
(
u
1
,
u
2
,
.
.
.
,
u
p
)
(25)
\Sigma=U\Lambda U^T;U^TU=UU^T=I;\Lambda=diag(\lambda_{i});i=1,2,...,N ;U=(u_1,u_2,...,u_p)\tag {25}
Σ=UΛUT;UTU=UUT=I;Λ=diag(λi);i=1,2,...,N;U=(u1,u2,...,up)(25)
Σ
=
U
Λ
U
T
=
(
u
1
,
u
2
,
.
.
.
,
u
p
)
(
λ
1
λ
2
⋮
λ
p
)
(
u
1
T
u
2
T
⋮
u
p
T
)
=
∑
i
=
1
p
u
i
λ
i
u
i
T
(26)
\Sigma=U\Lambda U^T=(u_1,u_2,...,u_p)\begin{pmatrix} \lambda_{1}&&&\\&\lambda_{2}&&\\&&\vdots&\\&&&\lambda_{p}\end{pmatrix}\begin{pmatrix} u_1^T\\u_2^T\\\vdots\\u_p^T \end{pmatrix}=\sum_{i=1}^{p}u_i \lambda_iu_i^T \tag {26}
Σ=UΛUT=(u1,u2,...,up)⎝⎜⎜⎜⎛λ1λ2⋮λp⎠⎟⎟⎟⎞⎝⎜⎜⎜⎛u1Tu2T⋮upT⎠⎟⎟⎟⎞=i=1∑puiλiuiT(26)
Σ
−
1
=
(
U
Λ
U
T
)
−
1
=
U
Λ
−
1
U
T
=
∑
i
=
1
p
u
i
1
λ
i
u
i
T
(27)
\Sigma^{-1}=(U\Lambda U^T)^{-1}=U\Lambda^{-1}U^T=\sum_{i=1}^{p}u_i \frac{1}{\lambda_i}u_i^T \tag {27}
Σ−1=(UΛUT)−1=UΛ−1UT=i=1∑puiλi1uiT(27)
我们将上式代入到马氏距离L上可得如下:
L
=
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
=
(
x
−
μ
)
T
∑
i
=
1
p
u
i
1
λ
i
u
i
T
(
x
−
μ
)
(28)
L=(x-\mu)^T\Sigma^{-1}(x-\mu)=(x-\mu)^T\sum_{i=1}^{p}u_i \frac{1}{\lambda_i}u_i^T(x-\mu) \tag {28}
L=(x−μ)TΣ−1(x−μ)=(x−μ)Ti=1∑puiλi1uiT(x−μ)(28)
L
=
1
λ
i
∑
i
=
1
p
[
(
x
−
μ
)
T
u
i
]
[
u
i
T
(
x
−
μ
)
]
(29)
L=\frac{1}{\lambda_i}\sum_{i=1}^{p}[(x-\mu)^Tu_i ][u_i^T(x-\mu)] \tag {29}
L=λi1i=1∑p[(x−μ)Tui][uiT(x−μ)](29)
我们令
y
i
=
(
y
1
T
y
2
T
⋮
y
N
T
)
=
(
x
−
μ
)
T
u
i
(30)
y_i=\begin{pmatrix} y_1^T\\y_2^T\\\vdots\\y_N^T \end{pmatrix}=(x-\mu)^T u_i \tag {30}
yi=⎝⎜⎜⎜⎛y1Ty2T⋮yNT⎠⎟⎟⎟⎞=(x−μ)Tui(30)
L
=
∑
i
=
1
p
1
λ
i
y
i
y
i
T
=
∑
i
=
1
p
y
i
2
λ
i
(31)
L=\sum_{i=1}^{p}\frac{1}{\lambda_i}y_iy_i^T=\sum_{i=1}^{p}\frac{y_i^2}{\lambda_i} \tag {31}
L=i=1∑pλi1yiyiT=i=1∑pλiyi2(31)
我们假设p=2 ,则
L
=
y
1
2
λ
1
+
y
2
2
λ
2
;
表
示
为
一
个
椭
圆
L =\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2};表示为一个椭圆
L=λ1y12+λ2y22;表示为一个椭圆 如果L取不同的值,我们就可以像等高线一样切除高斯三维的模型,截面形成一个椭圆形状。
y
i
=
(
x
−
μ
)
T
u
i
;
几
何
意
义
解
释
:
y_i=(x-\mu)^T u_i ;几何意义解释:
yi=(x−μ)Tui;几何意义解释:
1.
x
先
向
中
心
偏
移
后
得
到
的
向
量
(
x
−
μ
)
T
;
2.
向
量
(
x
−
μ
)
T
在
u
i
上
的
投
影
1.x先向中心偏移后得到的向量(x-\mu)^T; 2.向量(x-\mu)^T在u_i上的投影
1.x先向中心偏移后得到的向量(x−μ)T;2.向量(x−μ)T在ui上的投影
4.已知联合概率密度p(x,y),求条件概率密度p(x|y)和边缘概率密度p(x)
4.1样本定义
多变量的高斯分布
X
∼
N
(
μ
,
Σ
)
X\sim N(\mu,\Sigma)
X∼N(μ,Σ),其概率密度函数如下:
P
(
x
i
∣
θ
)
=
1
(
2
π
)
p
2
∣
Σ
∣
1
2
e
x
p
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
(32)
P(x_i|\theta)=\frac{1}{{(2\pi)^{\frac{p}{2}}}|\Sigma|^\frac{1}{2}}exp^{(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))} \tag {32}
P(xi∣θ)=(2π)2p∣Σ∣211exp(−21(x−μ)TΣ−1(x−μ))(32)
X
=
(
x
1
,
x
2
,
.
.
.
,
x
N
)
T
=
(
x
1
T
x
2
T
⋮
x
N
T
)
P
×
1
=
(
x
11
x
12
.
.
.
x
1
p
x
21
x
22
.
.
.
x
2
p
⋮
⋮
⋮
⋮
x
N
1
x
N
2
.
.
.
x
N
p
)
N
×
P
(33)
X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}_{P\times 1}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P} \tag {33}
X=(x1,x2,...,xN)T=⎝⎜⎜⎜⎛x1Tx2T⋮xNT⎠⎟⎟⎟⎞P×1=⎝⎜⎜⎜⎛x11x21⋮xN1x12x22⋮xN2......⋮...x1px2p⋮xNp⎠⎟⎟⎟⎞N×P(33)
Σ
=
(
σ
11
σ
12
.
.
.
σ
1
p
σ
21
σ
22
.
.
.
σ
2
p
⋮
⋮
⋮
⋮
σ
p
1
σ
p
2
.
.
.
σ
p
p
)
p
×
p
;
μ
=
(
μ
1
T
μ
2
T
⋮
μ
p
T
)
P
×
1
(34)
\Sigma=\begin{pmatrix} \sigma_{11}&\sigma_{12}&...&\sigma_{1p}\\\sigma_{21}&\sigma_{22}&...&\sigma_{2p}\\\vdots&\vdots&\vdots&\vdots\\\sigma_{p1}&\sigma_{p2}&...&\sigma_{pp}\end{pmatrix}_{p \times p} ;\mu=\begin{pmatrix} \mu_1^T\\\mu_2^T\\\vdots\\\mu_p^T \end{pmatrix}_{P\times 1}\tag {34}
Σ=⎝⎜⎜⎜⎛σ11σ21⋮σp1σ12σ22⋮σp2......⋮...σ1pσ2p⋮σpp⎠⎟⎟⎟⎞p×p;μ=⎝⎜⎜⎜⎛μ1Tμ2T⋮μpT⎠⎟⎟⎟⎞P×1(34)
注:我们一般默认为
Σ
\Sigma
Σ为半正定矩阵,这里为了方便计算,我们假设
Σ
\Sigma
Σ为正定矩阵。
目的:已知联合概率密度求条件概率密度和边缘概率密度,可描述为已知
x
a
为
m
维
度
,
x
b
为
n
维
度
;
x_a为m维度,x_b为n维度;
xa为m维度,xb为n维度;:
已
知
:
X
=
(
x
a
x
b
)
;
m
+
n
=
p
;
μ
=
(
μ
a
μ
b
)
;
Σ
=
(
Σ
a
a
Σ
a
b
Σ
a
b
Σ
b
b
)
;
Σ
a
b
=
Σ
b
a
T
(35)
已知:X= \begin{pmatrix} x_a\\\\x_b \end{pmatrix};m+n=p;\mu= \begin{pmatrix} \mu_a\\\\\mu_b \end{pmatrix};\Sigma= \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix};\Sigma_{ab}=\Sigma_{ba}^T \tag {35}
已知:X=⎝⎛xaxb⎠⎞;m+n=p;μ=⎝⎛μaμb⎠⎞;Σ=(ΣaaΣabΣabΣbb);Σab=ΣbaT(35)
求
边
缘
概
率
p
(
x
a
)
,
条
件
概
率
p
(
x
b
∣
x
a
)
求边缘概率p(x_a),条件概率p(x_b|x_a)
求边缘概率p(xa),条件概率p(xb∣xa)
4.2 引入相关公式-线性组合
已
知
:
X
服
从
高
斯
分
布
X
∼
N
(
μ
,
Σ
)
,
Y
与
X
满
足
线
性
关
系
,
Y
=
A
X
+
B
已知:X服从高斯分布X\sim N(\mu,\Sigma),Y与X满足线性关系,Y=AX+B
已知:X服从高斯分布X∼N(μ,Σ),Y与X满足线性关系,Y=AX+B
结
论
:
Y
服
从
高
斯
分
布
Y
∼
N
(
A
μ
+
B
,
A
Σ
A
T
)
结论:Y服从高斯分布Y\sim N(A\mu+B,A\Sigma A^T)
结论:Y服从高斯分布Y∼N(Aμ+B,AΣAT)
证明:
E
[
Y
]
=
E
[
A
X
+
B
]
=
A
E
[
X
]
+
B
=
A
μ
+
B
E[Y]=E[AX+B]=AE[X]+B=A\mu+B
E[Y]=E[AX+B]=AE[X]+B=Aμ+B
D
[
Y
]
=
D
[
A
X
+
B
]
=
D
[
A
X
]
+
0
=
A
D
[
X
]
A
T
=
A
Σ
A
T
D[Y]=D[AX+B]=D[AX]+0=AD[X]A^T=A\Sigma A^T
D[Y]=D[AX+B]=D[AX]+0=AD[X]AT=AΣAT
4.3 独立性证明
X
若
服
从
高
斯
分
布
X
∼
N
(
μ
,
Σ
)
,
则
M
X
⊥
N
X
⟺
M
Σ
N
T
=
0
(36)
X若服从高斯分布X\sim N(\mu,\Sigma),则MX \bot NX\Longleftrightarrow M\Sigma N^T=0\tag {36}
X若服从高斯分布X∼N(μ,Σ),则MX⊥NX⟺MΣNT=0(36)
证明:
∵
X
∼
N
(
μ
,
Σ
)
\because X\sim N(\mu,\Sigma)
∵X∼N(μ,Σ)
∴
M
X
∼
N
(
M
μ
,
M
Σ
M
T
)
;
N
X
∼
N
(
N
μ
,
N
Σ
N
T
)
\therefore MX\sim N(M\mu,M\Sigma M^T);NX\sim N(N\mu,N\Sigma N^T)
∴MX∼N(Mμ,MΣMT);NX∼N(Nμ,NΣNT)
由定义可得:
C
O
V
(
M
X
,
N
X
)
COV(MX,NX)
COV(MX,NX)
= E [ ( M X − M μ ) ( N X − N μ ) T ] =E[(MX-M\mu)(NX-N\mu)^T] =E[(MX−Mμ)(NX−Nμ)T]
= E [ ( M ( X − μ ) ( X − μ ) T N T ] =E[(M(X-\mu)(X-\mu)^TN^T] =E[(M(X−μ)(X−μ)TNT]
= M ⋅ E [ ( ( X − μ ) ( X − μ ) T ] ⋅ N T =M\cdot E[((X-\mu)(X-\mu)^T]\cdot N^T =M⋅E[((X−μ)(X−μ)T]⋅NT
= M Σ N T =M\Sigma N^T =MΣNT
∵ X ∼ N ( μ , Σ ) , M X ⊥ N X \because X\sim N(\mu,\Sigma),MX \bot NX ∵X∼N(μ,Σ),MX⊥NX
∴ M X 和 N X 相 互 独 立 \therefore MX和NX相互独立 ∴MX和NX相互独立
∴ C O V ( M X , N X ) = 0 \therefore COV(MX,NX)=0 ∴COV(MX,NX)=0
∵ C O V ( M X , N X ) = M Σ N T \because COV(MX,NX)=M\Sigma N^T ∵COV(MX,NX)=MΣNT
∴ M Σ N T = 0 \therefore M\Sigma N^T=0 ∴MΣNT=0
我们定义
Σ
=
(
Σ
a
a
Σ
a
b
Σ
a
b
Σ
b
b
)
,
X
b
⋅
a
=
X
b
−
Σ
b
a
Σ
a
a
−
1
X
a
;
我
们
用
矩
阵
形
式
表
达
X
b
⋅
a
,
X
a
\Sigma= \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix},X_{b\cdot a}=X_b-\Sigma_{ba}\Sigma_{aa}^{-1}X_a;我们用矩阵形式表达X_{b\cdot a},X_a
Σ=(ΣaaΣabΣabΣbb),Xb⋅a=Xb−ΣbaΣaa−1Xa;我们用矩阵形式表达Xb⋅a,Xa
X
b
⋅
a
=
(
−
Σ
b
a
Σ
a
a
−
1
,
I
)
(
x
a
x
b
)
;
X
a
=
(
I
,
0
)
(
x
a
x
b
)
;
(37)
X_{b\cdot a}=(-\Sigma_{ba}\Sigma_{aa}^{-1},I) \begin{pmatrix} x_a\\\\x_b \end{pmatrix};X_a=(I,0) \begin{pmatrix} x_a\\\\x_b \end{pmatrix};\tag{37}
Xb⋅a=(−ΣbaΣaa−1,I)⎝⎛xaxb⎠⎞;Xa=(I,0)⎝⎛xaxb⎠⎞;(37)
M
=
(
−
Σ
b
a
Σ
a
a
−
1
,
I
)
;
X
=
(
x
a
x
b
)
;
N
=
(
I
,
0
)
(38)
M=(-\Sigma_{ba}\Sigma_{aa}^{-1},I);X= \begin{pmatrix} x_a\\\\x_b \end{pmatrix};N=(I,0) \tag{38}
M=(−ΣbaΣaa−1,I);X=⎝⎛xaxb⎠⎞;N=(I,0)(38)
∵
M
Σ
N
T
=
(
−
Σ
b
a
Σ
a
a
−
1
,
I
)
(
Σ
a
a
Σ
a
b
Σ
a
b
Σ
b
b
)
(
I
0
)
=
(
0
,
−
Σ
b
a
Σ
a
a
−
1
Σ
a
b
+
Σ
b
b
)
(
I
0
)
=
0
\because M\Sigma N^T=(-\Sigma_{ba}\Sigma_{aa}^{-1},I) \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix} \begin{pmatrix} I\\\\0 \end{pmatrix}=(0,-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}+\Sigma_{bb})\begin{pmatrix} I\\\\0 \end{pmatrix}=0
∵MΣNT=(−ΣbaΣaa−1,I)(ΣaaΣabΣabΣbb)⎝⎛I0⎠⎞=(0,−ΣbaΣaa−1Σab+Σbb)⎝⎛I0⎠⎞=0
∴
M
X
⊥
N
X
\therefore MX \bot NX
∴MX⊥NX
∴
X
b
⋅
a
⊥
X
a
\therefore X_{b\cdot a} \bot X_a
∴Xb⋅a⊥Xa
结
论
:
X
b
⋅
a
∣
X
a
=
X
b
⋅
a
(39)
结论:X_{b\cdot a}|X_a=X_{b\cdot a} \tag{39}
结论:Xb⋅a∣Xa=Xb⋅a(39)
我
们
定
义
:
X
b
=
X
b
⋅
a
+
Σ
b
a
Σ
a
a
−
1
X
a
我们定义:X_b=X_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}X_a
我们定义:Xb=Xb⋅a+ΣbaΣaa−1Xa
X
b
∣
X
a
=
X
b
⋅
a
∣
X
a
+
Σ
b
a
Σ
a
a
−
1
X
a
∣
X
a
=
X
b
⋅
a
+
Σ
b
a
Σ
a
a
−
1
X
a
=
X
b
(40)
X_{b}|X_a=X_{b\cdot a}|X_a+\Sigma_{ba}\Sigma_{aa}^{-1}X_a|X_a=X_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}X_a=X_b \tag{40}
Xb∣Xa=Xb⋅a∣Xa+ΣbaΣaa−1Xa∣Xa=Xb⋅a+ΣbaΣaa−1Xa=Xb(40)
结
论
:
X
b
∣
X
a
⊥
X
b
(41)
结论:X_{b}|X_a \bot X_b \tag{41}
结论:Xb∣Xa⊥Xb(41)
E
[
X
b
∣
X
a
]
=
E
[
X
b
]
(42)
\mathbb{E}[X_{b}|X_a]=\mathbb{E}[X_{b}] \tag{42}
E[Xb∣Xa]=E[Xb](42)
D
[
X
b
∣
X
a
]
=
D
[
X
b
]
(42)
\mathbb{D}[X_{b}|X_a]=\mathbb{D}[X_{b}] \tag{42}
D[Xb∣Xa]=D[Xb](42)
4.4边缘概率 P ( x a ) P(x_a) P(xa)
由于我们已知:
X
=
(
x
a
x
b
)
X= \begin{pmatrix} x_a\\\\x_b \end{pmatrix}
X=⎝⎛xaxb⎠⎞;我们构造变量
X
a
X_a
Xa满足如下公式:
X
a
=
(
I
m
,
0
)
(
x
a
x
b
)
(43)
X_a=(I_m,0) \begin{pmatrix} x_a\\\\x_b \end{pmatrix}\tag{43}
Xa=(Im,0)⎝⎛xaxb⎠⎞(43)
我们可以令
A
=
(
I
m
,
0
)
;
X
=
(
x
a
x
b
)
(44)
A=(I_m,0);X=\begin{pmatrix} x_a\\\\x_b \end{pmatrix}\tag{44}
A=(Im,0);X=⎝⎛xaxb⎠⎞(44)
则
:
X
a
=
A
X
则:X_a=AX
则:Xa=AX
已
知
:
X
服
从
高
斯
分
布
X
∼
N
(
μ
,
Σ
)
,
Y
与
X
满
足
线
性
关
系
,
Y
=
A
X
+
B
已知:X服从高斯分布X\sim N(\mu,\Sigma),Y与X满足线性关系,Y=AX+B
已知:X服从高斯分布X∼N(μ,Σ),Y与X满足线性关系,Y=AX+B
结
论
:
Y
服
从
高
斯
分
布
Y
∼
N
(
A
μ
+
B
,
A
Σ
A
T
)
结论:Y服从高斯分布Y\sim N(A\mu+B,A\Sigma A^T)
结论:Y服从高斯分布Y∼N(Aμ+B,AΣAT)
E
[
X
a
]
=
A
E
[
X
]
;
已
知
:
E
[
X
]
=
(
μ
a
μ
b
)
(45)
\mathbb{E}[X_a]=A\mathbb{E}[X];已知:\mathbb{E}[X]=\begin{pmatrix} \mu_a\\\mu_b \end{pmatrix}\tag{45}
E[Xa]=AE[X];已知:E[X]=(μaμb)(45)
E
[
X
a
]
=
(
I
m
,
0
)
(
μ
a
μ
b
)
=
μ
a
(46)
\mathbb{E}[X_a]=(I_m,0)\begin{pmatrix} \mu_a\\\mu_b \end{pmatrix}=\mu_a \tag{46}
E[Xa]=(Im,0)(μaμb)=μa(46)
D
(
X
a
)
=
A
D
[
X
]
A
T
;
已
知
:
D
[
X
]
=
Σ
=
(
Σ
a
a
Σ
a
b
Σ
a
b
Σ
b
b
)
(47)
\mathbb{D}(X_a)=A\mathbb{D}[X]A^T;已知:\mathbb{D}[X]=\Sigma= \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix}\tag{47}
D(Xa)=AD[X]AT;已知:D[X]=Σ=(ΣaaΣabΣabΣbb)(47)
D
(
X
a
)
=
A
Σ
A
T
=
(
I
m
,
0
)
(
Σ
a
a
Σ
a
b
Σ
a
b
Σ
b
b
)
(
I
m
0
)
=
Σ
a
a
(48)
\mathbb{D}(X_a)=A\Sigma A^T= (I_m,0)\begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix}\begin{pmatrix} I_m\\0 \end{pmatrix}=\Sigma_{aa}\tag{48}
D(Xa)=AΣAT=(Im,0)(ΣaaΣabΣabΣbb)(Im0)=Σaa(48)
结
论
:
X
a
∼
N
(
μ
a
,
Σ
a
a
)
结论:X_a\sim N(\mu_a,\Sigma_{aa})
结论:Xa∼N(μa,Σaa)
4.5条件概率密度 p ( x b ∣ x a ) p(x_b|x_a) p(xb∣xa)
这里我们运用构造法来求,我们需要引入如下构造公式:
x
b
⋅
a
=
x
b
−
Σ
b
a
Σ
a
a
−
1
x
a
(49)
x_{b \cdot a}=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_a \tag{49}
xb⋅a=xb−ΣbaΣaa−1xa(49)
μ
b
⋅
a
=
μ
b
−
Σ
b
a
Σ
a
a
−
1
μ
a
(50)
\mu_{b \cdot a}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a \tag{50}
μb⋅a=μb−ΣbaΣaa−1μa(50)
Σ
b
b
⋅
a
=
Σ
b
b
−
Σ
b
a
Σ
a
a
−
1
Σ
a
b
(51)
\Sigma_{bb \cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{51}
Σbb⋅a=Σbb−ΣbaΣaa−1Σab(51)
我们可以将
X
b
⋅
a
X_{b \cdot a}
Xb⋅a用矩阵形式表示:
x
b
⋅
a
=
(
−
Σ
b
a
Σ
a
a
−
1
,
I
n
)
(
x
a
x
b
)
(52)
x_{b \cdot a}=(-\Sigma_{ba}\Sigma_{aa}^{-1},I_n)\begin{pmatrix} x_a\\\\x_b \end{pmatrix}\tag{52}
xb⋅a=(−ΣbaΣaa−1,In)⎝⎛xaxb⎠⎞(52)
令
:
A
1
=
(
−
Σ
b
a
Σ
a
a
−
1
,
I
n
)
;
X
=
(
x
a
x
b
)
;
Y
=
x
b
⋅
a
(53)
令:A_1=(-\Sigma_{ba}\Sigma_{aa}^{-1},I_n);X=\begin{pmatrix} x_a\\\\x_b \end{pmatrix};Y=x_{b \cdot a} \tag{53}
令:A1=(−ΣbaΣaa−1,In);X=⎝⎛xaxb⎠⎞;Y=xb⋅a(53)
E
[
Y
]
=
A
1
E
[
X
]
=
(
−
Σ
b
a
Σ
a
a
−
1
,
I
n
)
(
μ
a
μ
b
)
=
μ
b
−
Σ
b
a
Σ
a
a
−
1
μ
a
=
μ
b
⋅
a
(54)
\mathbb{E}[Y]=A_1\mathbb{E}[X]=(-\Sigma_{ba}\Sigma_{aa}^{-1},I_n)\begin{pmatrix} \mu_a\\\mu_b \end{pmatrix}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a=\mu_{b \cdot a}\tag{54}
E[Y]=A1E[X]=(−ΣbaΣaa−1,In)(μaμb)=μb−ΣbaΣaa−1μa=μb⋅a(54)
D
[
Y
]
=
A
1
D
[
X
]
A
1
T
=
(
−
Σ
b
a
Σ
a
a
−
1
,
I
n
)
(
Σ
a
a
Σ
a
b
Σ
a
b
Σ
b
b
)
(
−
Σ
b
a
Σ
a
a
−
1
I
n
)
=
Σ
b
b
−
Σ
b
a
Σ
a
a
−
1
Σ
a
b
=
Σ
b
b
⋅
a
(55)
\mathbb{D}[Y]=A_1\mathbb{D}[X]A_1^T=(-\Sigma_{ba}\Sigma_{aa}^{-1},I_n)\begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix}\begin{pmatrix} -\Sigma_{ba}\Sigma_{aa}^{-1}\\\\I_n \end{pmatrix}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}=\Sigma_{bb \cdot a} \tag{55}
D[Y]=A1D[X]A1T=(−ΣbaΣaa−1,In)(ΣaaΣabΣabΣbb)⎝⎛−ΣbaΣaa−1In⎠⎞=Σbb−ΣbaΣaa−1Σab=Σbb⋅a(55)
Y
=
x
b
⋅
a
∼
N
(
μ
b
⋅
a
,
Σ
b
b
⋅
a
)
(56)
Y=x_{b \cdot a}\sim N(\mu_{b \cdot a},\Sigma_{bb \cdot a})\tag{56}
Y=xb⋅a∼N(μb⋅a,Σbb⋅a)(56)
由于我们定义了:
x
b
⋅
a
=
x
b
−
Σ
b
a
Σ
a
a
−
1
x
a
;
(
49
公
式
)
;
独
立
性
:
X
b
⋅
a
∣
X
a
=
X
b
⋅
a
x_{b \cdot a}=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_a;(49公式);独立性:X_{b\cdot a}|X_a=X_{b\cdot a}
xb⋅a=xb−ΣbaΣaa−1xa;(49公式);独立性:Xb⋅a∣Xa=Xb⋅a
条
件
性
:
x
b
⋅
a
∣
x
a
=
x
b
∣
x
a
−
Σ
b
a
Σ
a
a
−
1
x
a
∣
x
a
;
(57)
条件性:x_{b \cdot a}|x_a=x_{b}|x_a-\Sigma_{ba}\Sigma_{aa}^{-1}x_a|x_a;\tag{57}
条件性:xb⋅a∣xa=xb∣xa−ΣbaΣaa−1xa∣xa;(57)
x
b
⋅
a
=
x
b
∣
x
a
−
Σ
b
a
Σ
a
a
−
1
x
a
;
(58)
x_{b\cdot a}=x_{b}|x_a-\Sigma_{ba}\Sigma_{aa}^{-1}x_a;\tag{58}
xb⋅a=xb∣xa−ΣbaΣaa−1xa;(58)
E
[
x
b
⋅
a
]
=
E
[
x
b
∣
x
a
]
−
Σ
b
a
Σ
a
a
−
1
x
a
(59)
\mathbb{E}[x_{b\cdot a}]=\mathbb{E}[x_{b}|x_a]-\Sigma_{ba}\Sigma_{aa}^{-1}x_a \tag{59}
E[xb⋅a]=E[xb∣xa]−ΣbaΣaa−1xa(59)
x
a
是
已
知
量
;
可
以
将
Σ
b
a
Σ
a
a
−
1
x
a
看
作
常
量
对
待
x_a是已知量;可以将\Sigma_{ba}\Sigma_{aa}^{-1}x_a看作常量对待
xa是已知量;可以将ΣbaΣaa−1xa看作常量对待
E
[
x
b
∣
x
a
]
=
E
[
x
b
⋅
a
]
+
Σ
b
a
Σ
a
a
−
1
x
a
(60)
\mathbb{E}[x_{b}|x_a]=\mathbb{E}[x_{b\cdot a}]+\Sigma_{ba}\Sigma_{aa}^{-1}x_a \tag{60}
E[xb∣xa]=E[xb⋅a]+ΣbaΣaa−1xa(60)
E
[
x
b
⋅
a
]
=
μ
b
⋅
a
=
μ
b
−
Σ
b
a
Σ
a
a
−
1
μ
a
;
(61)
\mathbb{E}[x_{b\cdot a}]=\mu_{b \cdot a}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a;\tag{61}
E[xb⋅a]=μb⋅a=μb−ΣbaΣaa−1μa;(61)
E
[
x
b
∣
x
a
]
=
μ
b
−
Σ
b
a
Σ
a
a
−
1
μ
a
+
Σ
b
a
Σ
a
a
−
1
x
a
(62)
\mathbb{E}[x_{b}|x_a]=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a+\Sigma_{ba}\Sigma_{aa}^{-1}x_a\tag{62}
E[xb∣xa]=μb−ΣbaΣaa−1μa+ΣbaΣaa−1xa(62)
E
[
x
b
∣
x
a
]
=
μ
b
+
Σ
b
a
Σ
a
a
−
1
(
x
a
−
μ
a
)
(63)
\mathbb{E}[x_{b}|x_a]=\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a)\tag{63}
E[xb∣xa]=μb+ΣbaΣaa−1(xa−μa)(63)
D
[
x
b
∣
x
a
]
=
D
[
x
b
⋅
a
]
=
Σ
b
b
−
Σ
b
a
Σ
a
a
−
1
Σ
a
b
(64)
\mathbb{D}[x_{b}|x_a]=\mathbb{D}[x_{b\cdot a}]=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{64}
D[xb∣xa]=D[xb⋅a]=Σbb−ΣbaΣaa−1Σab(64)
结
论
:
p
(
x
b
∣
x
a
)
∼
N
[
μ
b
+
Σ
b
a
Σ
a
a
−
1
(
x
a
−
μ
a
)
,
Σ
b
b
−
Σ
b
a
Σ
a
a
−
1
Σ
a
b
]
(65)
结论:p(x_b|x_a)\sim N[\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a),\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}] \tag{65}
结论:p(xb∣xa)∼N[μb+ΣbaΣaa−1(xa−μa),Σbb−ΣbaΣaa−1Σab](65)
结
论
:
p
(
x
a
∣
x
b
)
∼
N
[
μ
a
+
Σ
a
b
Σ
b
b
−
1
(
x
b
−
μ
b
)
,
Σ
a
a
−
Σ
a
b
Σ
b
b
−
1
Σ
b
a
]
(65)
结论:p(x_a|x_b)\sim N[\mu_{a}+\Sigma_{ab}\Sigma_{bb}^{-1}(x_b-\mu_b),\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba}] \tag{65}
结论:p(xa∣xb)∼N[μa+ΣabΣbb−1(xb−μb),Σaa−ΣabΣbb−1Σba](65)
5.已知边缘概率密度p(x)和条件概率密度p(y|x),求边缘概率p(y),条件概率p(x|y)
已
知
:
p
(
x
)
=
N
(
x
∣
μ
,
Λ
−
1
)
;
p
(
y
∣
x
)
=
N
(
A
x
+
b
,
L
−
1
)
;
求
p
(
y
)
和
p
(
x
∣
y
)
?
已知:p(x)=N(x|\mu,\Lambda^{-1});p(y|x)=N(Ax+b,L^{-1});求p(y)和p(x|y)?
已知:p(x)=N(x∣μ,Λ−1);p(y∣x)=N(Ax+b,L−1);求p(y)和p(x∣y)?
注
:
协
方
差
矩
阵
的
逆
表
示
精
度
矩
阵
Λ
−
1
;
变
量
Y
与
X
服
从
线
性
关
系
Y
=
A
x
+
b
+
ϵ
;
噪
声
ϵ
独
立
于
X
,
ϵ
∼
N
(
0
,
L
−
1
)
注:协方差矩阵的逆表示精度矩阵\Lambda^{-1};变量Y与X服从线性关系Y=Ax+b+\epsilon;噪声\epsilon独立于X,\epsilon \sim N(0,L^{-1})
注:协方差矩阵的逆表示精度矩阵Λ−1;变量Y与X服从线性关系Y=Ax+b+ϵ;噪声ϵ独立于X,ϵ∼N(0,L−1)
5.1求边缘概率p(y)
E
[
Y
]
=
E
[
A
x
+
b
+
ϵ
]
=
A
E
[
X
]
+
b
+
0
=
A
μ
+
b
(66)
\mathbb{E}[Y]=\mathbb{E}[Ax+b+\epsilon]=A\mathbb{E}[X]+b+0=A\mu+b \tag{66}
E[Y]=E[Ax+b+ϵ]=AE[X]+b+0=Aμ+b(66)
D
[
Y
]
=
D
[
A
x
+
b
+
ϵ
]
=
A
D
[
X
]
A
T
+
0
+
L
−
1
=
A
Λ
−
1
A
T
+
L
−
1
(66)
\mathbb{D}[Y]=\mathbb{D}[Ax+b+\epsilon]=A\mathbb{D}[X]A^T+0+L^{-1}=A\Lambda^{-1}A^T+L^{-1} \tag{66}
D[Y]=D[Ax+b+ϵ]=AD[X]AT+0+L−1=AΛ−1AT+L−1(66)
结
论
:
p
(
y
)
∼
N
(
A
μ
+
b
,
A
Λ
−
1
A
T
+
L
−
1
)
(67)
结论:p(y)\sim N(A\mu+b,A\Lambda^{-1}A^T+L^{-1})\tag{67}
结论:p(y)∼N(Aμ+b,AΛ−1AT+L−1)(67)
5.2求条件概率p(x|y)
到目前为止,我们已知p(x),p(y|x),p(y);如果我们知道联合概率p(x,y),那么就可以直接用4中的结论直接求p(x|y);
5.2.1构造Z
令
z
=
(
x
y
)
;
x
∼
N
(
μ
,
Λ
−
1
)
;
y
∼
N
(
A
μ
+
b
,
A
Λ
−
1
A
T
+
L
−
1
)
(68)
令z=\begin{pmatrix} x\\\\y \end{pmatrix};x \sim N(\mu,\Lambda^{-1});y \sim N(A\mu+b,A\Lambda^{-1}A^T+L^{-1})\tag{68}
令z=⎝⎛xy⎠⎞;x∼N(μ,Λ−1);y∼N(Aμ+b,AΛ−1AT+L−1)(68)
z
=
(
x
y
)
∼
N
(
(
μ
A
μ
+
b
)
,
(
Λ
−
1
Δ
Δ
T
A
Λ
−
1
A
T
+
L
−
1
)
)
(69)
z=\begin{pmatrix} x\\\\y \end{pmatrix}\sim N(\begin{pmatrix} \mu\\\\A\mu+b \end{pmatrix},\begin{pmatrix} \Lambda^{-1}&\Delta\\\\\Delta^T&A\Lambda^{-1}A^T+L^{-1} \end{pmatrix})\tag{69}
z=⎝⎛xy⎠⎞∼N(⎝⎛μAμ+b⎠⎞,⎝⎛Λ−1ΔTΔAΛ−1AT+L−1⎠⎞)(69)
注
:
Δ
为
关
于
x
,
y
的
协
方
差
,
我
们
可
以
用
协
方
差
定
义
来
求
解
Δ
:
注:\Delta为关于x,y的协方差,我们可以用协方差定义来求解\Delta:
注:Δ为关于x,y的协方差,我们可以用协方差定义来求解Δ:
Δ
=
C
o
v
(
x
,
y
)
=
E
[
(
x
−
E
[
X
]
)
(
y
−
E
[
Y
]
)
T
]
\Delta=Cov(x,y)=E[(x-E[X])(y-E[Y])^T]
Δ=Cov(x,y)=E[(x−E[X])(y−E[Y])T]
=
E
[
(
x
−
μ
)
(
[
A
x
+
b
+
ϵ
−
A
μ
−
b
)
T
]
=E[(x-\mu)([Ax+b+\epsilon-A\mu-b)^T]
=E[(x−μ)([Ax+b+ϵ−Aμ−b)T]
=
E
[
(
x
−
μ
)
[
A
(
x
−
μ
)
+
ϵ
]
T
]
=E[(x-\mu)[A(x-\mu)+\epsilon]^T]
=E[(x−μ)[A(x−μ)+ϵ]T]
=
E
[
(
x
−
μ
)
(
x
−
μ
)
T
A
T
+
(
x
−
μ
)
ϵ
T
]
=E[(x-\mu)(x-\mu)^TA^T+(x-\mu)\epsilon^T]
=E[(x−μ)(x−μ)TAT+(x−μ)ϵT]
=
E
[
(
x
−
μ
)
(
x
−
μ
)
T
]
A
T
+
E
[
(
x
−
μ
)
ϵ
T
]
]
=E[(x-\mu)(x-\mu)^T]A^T+E[(x-\mu)\epsilon^T]]
=E[(x−μ)(x−μ)T]AT+E[(x−μ)ϵT]]
注
:
由
于
x
独
立
于
ϵ
,
故
E
[
(
x
−
μ
)
ϵ
T
]
=
0
注:由于x独立于\epsilon,故E[(x-\mu)\epsilon^T]=0
注:由于x独立于ϵ,故E[(x−μ)ϵT]=0
=
E
[
(
x
−
μ
)
(
x
−
μ
)
T
]
A
T
=E[(x-\mu)(x-\mu)^T]A^T
=E[(x−μ)(x−μ)T]AT
=
D
(
x
)
A
T
=D(x)A^T
=D(x)AT
=
Λ
−
1
A
T
=\Lambda^{-1}A^T
=Λ−1AT
结
论
:
z
=
(
x
y
)
∼
N
(
(
μ
A
μ
+
b
)
,
(
Λ
−
1
Λ
−
1
A
T
A
Λ
−
1
A
Λ
−
1
A
T
+
L
−
1
)
)
(69)
结论:z=\begin{pmatrix} x\\\\y \end{pmatrix}\sim N(\begin{pmatrix} \mu\\\\A\mu+b \end{pmatrix},\begin{pmatrix} \Lambda^{-1}&\Lambda^{-1}A^T\\\\A\Lambda^{-1}&A\Lambda^{-1}A^T+L^{-1} \end{pmatrix})\tag{69}
结论:z=⎝⎛xy⎠⎞∼N(⎝⎛μAμ+b⎠⎞,⎝⎛Λ−1AΛ−1Λ−1ATAΛ−1AT+L−1⎠⎞)(69)
5.2.2求解条件概率p(x|y);
由结论65可得:
E
(
x
∣
y
)
=
μ
+
Λ
−
1
A
T
(
A
Λ
−
1
A
T
+
L
−
1
)
−
1
(
y
−
A
μ
−
b
)
(70)
\mathbb{E}(x|y)=\mu+\Lambda^{-1}A^T(A\Lambda^{-1}A^T+L^{-1})^{-1}(y-A\mu-b) \tag{70}
E(x∣y)=μ+Λ−1AT(AΛ−1AT+L−1)−1(y−Aμ−b)(70)
D
(
x
∣
y
)
=
Λ
−
1
−
Λ
−
1
A
T
(
A
Λ
−
1
A
T
+
L
−
1
)
−
1
A
Λ
−
1
(71)
\mathbb{D}(x|y)=\Lambda^{-1}-\Lambda^{-1}A^T(A\Lambda^{-1}A^T+L^{-1})^{-1}A\Lambda^{-1} \tag{71}
D(x∣y)=Λ−1−Λ−1AT(AΛ−1AT+L−1)−1AΛ−1(71)
5.3结论
结 论 : p ( x ∣ y ) ∼ N [ μ + Λ − 1 A T ( A Λ − 1 A T + L − 1 ) − 1 ( y − A μ − b ) , Λ − 1 − Λ − 1 A T ( A Λ − 1 A T + L − 1 ) − 1 A Λ − 1 ] 结论:p(x|y) \sim N[\mu+\Lambda^{-1}A^T(A\Lambda^{-1}A^T+L^{-1})^{-1}(y-A\mu-b) ,\Lambda^{-1}-\Lambda^{-1}A^T(A\Lambda^{-1}A^T+L^{-1})^{-1}A\Lambda^{-1}] 结论:p(x∣y)∼N[μ+Λ−1AT(AΛ−1AT+L−1)−1(y−Aμ−b),Λ−1−Λ−1AT(AΛ−1AT+L−1)−1AΛ−1]