一、极大似然估计
1、极大似然估计
数据:
X
=
x
1
,
x
2
,
x
3
,
.
.
.
,
x
N
X=x_1,x_2,x_3,...,x_N
X=x1,x2,x3,...,xN,
x
i
x_i
xi为n维数据,即
x
i
=
(
x
i
1
,
x
i
2
,
x
i
3
,
.
.
.
,
x
i
n
)
x_i=(x_{i1},x_{i2},x_{i3},...,x_{in})
xi=(xi1,xi2,xi3,...,xin),且数据 iid,都服从
N
(
μ
,
Σ
)
N(\mu,\Sigma)
N(μ,Σ)。
参数:
θ
=
(
μ
,
Σ
)
\theta=(\mu,\Sigma)
θ=(μ,Σ)
极大似然估计:以一维为例子使用极大似然方法估计参数,即
θ
=
(
μ
,
σ
2
)
\theta=(\mu,\sigma^2)
θ=(μ,σ2)。
极大似然估计:
(1)单个数据的概率分布:
p
(
x
∣
θ
)
=
1
2
π
σ
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
p(x|\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})
p(x∣θ)=2πσ1exp(−2σ2(x−μ)2)
(2)所有数据的概率分布:
p
(
X
∣
θ
)
=
∏
i
=
1
N
p
(
x
i
∣
θ
)
p(X|\theta)=\prod\limits_{i=1}^Np(x_i|\theta)
p(X∣θ)=i=1∏Np(xi∣θ)
(3)对数似然函数:
l
o
g
p
(
X
∣
θ
)
=
∑
i
=
1
N
l
o
g
p
(
x
i
∣
θ
)
=
∑
i
=
1
N
(
l
o
g
1
2
π
−
l
o
g
σ
−
(
x
i
−
μ
)
2
2
σ
2
)
logp(X|\theta)=\sum\limits_{i=1}^Nlogp(x_i|\theta)=\sum\limits_{i=1}^N(log\frac{1}{\sqrt{2\pi}}-log\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})
logp(X∣θ)=i=1∑Nlogp(xi∣θ)=i=1∑N(log2π1−logσ−2σ2(xi−μ)2)
(4)求参数
μ
\mu
μ:
∂
l
o
g
(
X
∣
θ
)
∂
μ
=
−
2
∑
i
=
1
N
(
x
i
−
μ
)
=
0
⇒
μ
^
=
∑
i
=
1
N
x
i
N
\frac{ \partial log(X|\theta)}{\partial \mu}=-2\sum\limits_{i=1}^N(x_i-\mu)=0\Rightarrow\hat{\mu}=\frac{\sum\limits_{i=1}^Nx_i}{N}
∂μ∂log(X∣θ)=−2i=1∑N(xi−μ)=0⇒μ^=Ni=1∑Nxi。
(5)求参数
σ
\sigma
σ:
∂
l
o
g
(
X
∣
θ
)
∂
σ
=
∑
i
=
1
N
(
−
1
σ
+
(
x
i
−
μ
)
2
σ
−
3
=
0
⇒
σ
^
=
∑
i
=
1
N
(
x
i
−
μ
^
)
2
N
\frac{\partial log(X|\theta)}{\partial \sigma}=\sum\limits_{i=1}^N(-\frac{1}{\sigma}+(x_i-\mu)^2\sigma^{-3}=0\Rightarrow\hat{\sigma}=\frac{\sum\limits_{i=1}^N(x_i-\hat{\mu})^2}{N}
∂σ∂log(X∣θ)=i=1∑N(−σ1+(xi−μ)2σ−3=0⇒σ^=Ni=1∑N(xi−μ^)2。
2、有偏VS无偏
有偏VS无偏
参数估计时,若 E ( θ ^ ) = θ , 则 为 有 偏 估 计 , 否 则 为 无 偏 估 计 E(\hat{\theta})=\theta,则为有偏估计,否则为无偏估计 E(θ^)=θ,则为有偏估计,否则为无偏估计。
(1)使用最大似然估计得到的高斯分布的均值
μ
^
\hat{\mu}
μ^为无偏估计:
E
(
μ
^
)
=
E
(
∑
x
i
N
)
=
1
N
E
(
∑
x
i
)
=
1
N
N
μ
=
μ
E(\hat\mu)=E(\frac{\sum x_i}{N})=\frac{1}{N}E(\sum x_i)=\frac{1}{N}N\mu=\mu
E(μ^)=E(N∑xi)=N1E(∑xi)=N1Nμ=μ,所以
μ
\mu
μ为无偏估计。
(2)使用最大似然估计得到的高斯分布的方差
σ
2
^
\hat{\sigma^2}
σ2^为有偏估计:
E
(
σ
2
^
)
=
E
(
∑
(
x
i
−
μ
^
)
2
N
)
=
1
N
∑
E
(
x
i
2
−
2
x
i
μ
^
+
μ
^
2
)
=
1
N
∑
(
E
(
x
i
2
)
−
2
E
(
x
i
μ
^
2
)
+
E
(
μ
^
)
)
=
1
N
∑
(
E
(
x
i
)
2
−
μ
^
2
)
=
1
N
∑
(
E
(
x
i
)
2
−
μ
2
−
(
μ
^
2
−
μ
2
)
)
=
1
N
(
N
v
a
r
(
x
)
−
N
v
a
r
(
μ
^
)
)
=
σ
2
−
v
a
r
(
μ
^
)
=
σ
2
−
1
N
σ
2
=
N
−
1
N
σ
2
≠
σ
2
E(\hat{\sigma^2}) =E(\frac{\sum (x_i-\hat{\mu})^2}{N})=\frac{1}{N}\sum E(x_i^2-2x_i\hat{\mu}+\hat\mu^2)=\frac{1}{N}\sum (E(x_i^2)-2E(x_i\hat{\mu}^2)+E(\hat{\mu}))=\frac{1}{N}\sum(E(x_i)^2-\hat{\mu}^2)=\frac{1}{N}\sum(E(x_i)^2-\mu^2-(\hat{\mu}^2-\mu^2))=\frac{1}{N}(Nvar(x)-Nvar(\hat{\mu}))=\sigma^2-var(\hat{\mu})=\sigma^2-\frac{1}{N}\sigma^2=\frac{N-1}{N}\sigma^2\not=\sigma^2
E(σ2^)=E(N∑(xi−μ^)2)=N1∑E(xi2−2xiμ^+μ^2)=N1∑(E(xi2)−2E(xiμ^2)+E(μ^))=N1∑(E(xi)2−μ^2)=N1∑(E(xi)2−μ2−(μ^2−μ2))=N1(Nvar(x)−Nvar(μ^))=σ2−var(μ^)=σ2−N1σ2=NN−1σ2=σ2。
并且使用最大似然估计得到的方差偏小,这是因为使用了均值的估计值对方差进行估计,从而导致使用最大似然对方差进行估计是有偏的。
(3)
σ
2
\sigma^2
σ2的无偏估计为:
1
N
−
1
∑
(
x
i
−
μ
^
)
2
\frac{1}{N-1}\sum(x_i-\hat{\mu})^2
N−11∑(xi−μ^)2。
二、从概率密度角度看高分布
当是多维高斯分布时,其概率密度函数为:
p
(
x
)
=
1
(
2
π
)
1
n
∣
Σ
∣
1
2
e
x
p
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
p(x)=\frac{1}{(2\pi)^{\frac{1}{n}}|\Sigma|^\frac{1}{2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))
p(x)=(2π)n1∣Σ∣211exp(−21(x−μ)TΣ−1(x−μ))。
对于同一个分布,不同的只是x的取值,其余
μ
和
Σ
\mu和\Sigma
μ和Σ可视为常数,因此考虑不同x的取值对
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
(x-\mu)^T\Sigma^{-1}(x-\mu)
(x−μ)TΣ−1(x−μ)的影响。
首先考虑协方差矩阵
Σ
\Sigma
Σ,根据特征值分解:
Σ
=
U
Λ
U
T
,
U
U
T
=
U
T
U
=
I
,
Λ
=
d
i
a
g
(
λ
i
)
i
=
1
,
2
,
.
.
.
,
n
,
U
=
(
u
1
,
u
2
,
.
.
.
,
u
p
)
p
∗
p
\Sigma=U\Lambda U^T,UU^T=U^TU=I,\Lambda=diag(\lambda_i) ~i=1,2,...,n,U=(u_1,u_2,...,u_p)_{p*p}
Σ=UΛUT,UUT=UTU=I,Λ=diag(λi) i=1,2,...,n,U=(u1,u2,...,up)p∗p
⇒
Σ
=
(
u
1
,
u
2
,
.
.
.
,
u
n
)
Λ
(
u
1
,
u
2
,
.
.
.
,
u
n
)
T
=
(
u
1
λ
1
,
u
2
λ
2
,
.
.
.
,
u
n
λ
n
)
(
u
1
,
u
2
,
.
.
.
,
u
n
)
T
=
∑
i
=
1
n
u
i
λ
i
u
i
T
\Rightarrow\Sigma=(u_1,u_2,...,u_n)\Lambda(u_1,u_2,...,u_n)^ T=(u_1\lambda_1,u_2\lambda_2,...,u_n\lambda_n)(u_1,u2,...,u_n)^T=\sum\limits_{i=1}^nu_i\lambda_iu_i^T
⇒Σ=(u1,u2,...,un)Λ(u1,u2,...,un)T=(u1λ1,u2λ2,...,unλn)(u1,u2,...,un)T=i=1∑nuiλiuiT。
则
Σ
−
1
=
(
U
Λ
U
)
−
1
=
U
Λ
−
1
U
T
=
∑
i
=
1
n
u
i
1
λ
i
u
i
T
\Sigma^{-1}=(U\Lambda U)^{-1}=U\Lambda^{-1}U^T=\sum\limits_{i=1}^nu_i\frac{1}{\lambda_i}u_i^T
Σ−1=(UΛU)−1=UΛ−1UT=i=1∑nuiλi1uiT。
则记
Δ
=
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
=
∑
i
=
1
n
(
x
−
μ
)
T
u
i
1
λ
i
u
i
T
(
x
−
μ
)
,
令
y
i
=
(
x
−
μ
)
T
u
i
,
则
Δ
=
∑
i
=
1
n
y
i
1
λ
i
y
i
=
∑
i
=
1
n
y
i
2
λ
i
\Delta=(x-\mu)^T\Sigma^{-1}(x-\mu)=\sum\limits_{i=1}^n(x-\mu)^Tu_i\frac{1}{\lambda_i}u_i^T(x-\mu),令y_i=(x-\mu)^Tu_i,则\Delta=\sum\limits_{i=1}^ny_i\frac{1}{\lambda_i}y_i=\sum\limits_{i=1}^n\frac{y_i^2}{\lambda_i}
Δ=(x−μ)TΣ−1(x−μ)=i=1∑n(x−μ)Tuiλi1uiT(x−μ),令yi=(x−μ)Tui,则Δ=i=1∑nyiλi1yi=i=1∑nλiyi2。
当
Δ
\Delta
Δ取值相同时,有相同的概率(在一点时,概率密度的值即为该点的概率),若n=2,则
Δ
=
y
1
2
λ
1
+
y
2
2
λ
2
\Delta=\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}
Δ=λ1y12+λ2y22,当取定值
Δ
=
r
\Delta=r
Δ=r时,
y
1
2
λ
1
+
y
2
2
λ
2
=
r
\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}=r
λ1y12+λ2y22=r,其为
y
1
y_1
y1轴和
y
2
y_2
y2轴上的椭圆,其中
y
1
y_1
y1和
y
2
y_2
y2的坐标是通过对x进行映射得到,即
y
i
=
(
x
−
μ
)
T
u
i
y_i=(x-\mu)^Tu_i
yi=(x−μ)Tui。因此,在二维高斯分布中,相同的概率的点在平面上方的映射为一个个椭圆。
三、高斯分布的局限性
高维高斯分布需要求其协方差矩阵,复杂度为
O
(
p
2
)
O(p^2)
O(p2),当很高维时复杂度很高,因此在一些情况下对协方差矩阵进行一些假设可以降低复杂度:
(1)协方差矩阵为对角矩阵,则
y
i
y_i
yi的方向与
x
i
x_i
xi同向,只是对
x
i
x_i
xi进行了平移,x的各维之间无关,互相正交。
(2)协方差矩阵为对角矩阵且特诊值都相同,即
λ
i
=
λ
\lambda_i=\lambda
λi=λ,则
Δ
\Delta
Δ值相同时为圆形,不再是椭圆,x分布是各向同性的。
四、求边缘概率和条件概率
数据格式:
已知
x
=
x=
x=
(
x
a
x
b
)
\begin{pmatrix}x_a \\ x_b \end{pmatrix}
(xaxb)
μ
=
\mu=
μ=
(
μ
a
μ
b
)
\begin{pmatrix}\mu_a\\\mu_b \end{pmatrix}
(μaμb)
Σ
=
\Sigma=
Σ=
[
Σ
a
a
Σ
a
b
Σ
b
a
Σ
b
b
]
\begin{bmatrix} \Sigma_{aa} & \Sigma_{ab} \\\Sigma_{ba} & \Sigma_{bb}\end{bmatrix}
[ΣaaΣbaΣabΣbb]
根据协方差矩阵的对称性:
Σ
a
b
=
Σ
b
a
T
\Sigma_{ab}=\Sigma_{ba}^T
Σab=ΣbaT
求
p
(
x
a
)
和
p
(
x
b
∣
x
a
)
p(x_a)和p(x_b|x_a)
p(xa)和p(xb∣xa)
1、定理
已知
x
服
从
N
(
μ
,
Σ
)
,
x
为
n
维
向
量
,
y
=
A
x
+
B
,
A
为
q
∗
n
的
矩
阵
,
y
为
q
维
向
量
,
则
:
x服从N(\mu,\Sigma),x为n维向量,y=Ax+B,A为q*n的矩阵,y为q维向量,则:
x服从N(μ,Σ),x为n维向量,y=Ax+B,A为q∗n的矩阵,y为q维向量,则:
y
服
从
N
(
A
μ
+
B
,
A
Σ
A
T
)
y服从N(A\mu+B,A\Sigma A^T)
y服从N(Aμ+B,AΣAT)
2、求边缘概率密度
(1)求边缘概率
p
(
x
a
)
p(x_a)
p(xa):
由
x
a
=
(
I
m
∗
m
0
m
∗
n
)
x
x_a=(I_{m*m}~ 0_{m*n})x
xa=(Im∗m 0m∗n)x,则根据定理有
A
=
(
I
m
∗
m
0
m
∗
n
)
,
B
=
0
A=(I_{m*m}~0_{m*n}),B=0
A=(Im∗m 0m∗n),B=0
⇒
E
(
x
a
)
=
A
∗
μ
+
B
=
(
I
m
∗
m
0
m
∗
n
)
(
μ
a
μ
b
)
T
+
0
=
μ
a
\Rightarrow E(x_a)=A*\mu+B=(I_{m*m}~0_{m*n})(\mu_a~\mu_b)^T+0=\mu_a
⇒E(xa)=A∗μ+B=(Im∗m 0m∗n)(μa μb)T+0=μa
v
a
r
(
x
a
)
=
A
Σ
A
T
=
Σ
a
a
var(x_a)=A\Sigma A^T=\Sigma_{aa}
var(xa)=AΣAT=Σaa
所以,
x
a
x_a
xa服从
N
(
μ
a
,
Σ
a
a
)
N(\mu_a,\Sigma_{aa})
N(μa,Σaa),则边缘概率
p
(
x
a
)
p(x_a)
p(xa)得解。
(2)求条件概率
p
(
x
b
∣
x
a
)
p(x_b|x_a)
p(xb∣xa),求解的过程比较有技巧性,间接性求解。
首先记一些符号:
x
b
a
=
x
b
−
Σ
b
a
Σ
a
a
−
1
x
a
x_{ba}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a
xba=xb−ΣbaΣaa−1xa
μ
b
a
=
μ
b
−
Σ
b
a
Σ
a
a
−
1
μ
a
\mu_{ba}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a
μba=μb−ΣbaΣaa−1μa
Σ
b
b
a
=
Σ
b
b
−
Σ
b
a
Σ
a
a
−
1
Σ
a
b
\Sigma_{bba}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}
Σbba=Σbb−ΣbaΣaa−1Σab
观察上面的符号,可以知道如果知道
x
b
a
x_{ba}
xba的分布,那么
x
b
x_b
xb的分布也就可以得到:
x
b
a
=
(
−
Σ
b
a
Σ
a
a
−
1
I
n
)
x
x_{ba}=(-\Sigma_{ba}\Sigma_{aa}^{-1}~ ~~~I_n)x
xba=(−ΣbaΣaa−1 In)x
,
则
A
=
(
−
Σ
b
a
Σ
a
a
−
1
I
n
)
,
B
=
0
,则A=(-\Sigma_{ba}\Sigma_{aa}^{-1}~ ~~~I_n),B=0
,则A=(−ΣbaΣaa−1 In),B=0
⇒
E
(
x
b
a
)
=
A
μ
+
B
=
μ
b
a
\Rightarrow E(x_{ba})=A\mu+B=\mu_ba
⇒E(xba)=Aμ+B=μba
⇒
v
a
r
(
x
b
a
)
=
A
x
A
T
=
Σ
b
b
a
\Rightarrow var(x_{ba})=AxA^T=\Sigma_{bba}
⇒var(xba)=AxAT=Σbba
⇒
x
b
a
服
从
N
(
μ
b
a
,
Σ
b
b
a
)
\Rightarrow x_{ba}服从N(\mu_ba,\Sigma_{bba})
⇒xba服从N(μba,Σbba)
因为
x
b
=
x
b
a
+
Σ
b
a
Σ
a
a
−
1
x
a
,
则
A
=
I
,
B
=
Σ
b
a
Σ
a
a
−
1
x
a
x_b=x_{ba}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a,则A=I,B=\Sigma_{ba}\Sigma_{aa}^{-1}x_a
xb=xba+ΣbaΣaa−1xa,则A=I,B=ΣbaΣaa−1xa
⇒
E
(
x
b
∣
x
a
)
=
μ
b
a
+
B
=
μ
b
a
+
Σ
b
a
Σ
a
a
−
1
x
a
\Rightarrow E(x_b|x_a)=\mu_{ba}+B=\mu_{ba}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a
⇒E(xb∣xa)=μba+B=μba+ΣbaΣaa−1xa
⇒
v
a
r
(
x
b
∣
x
a
)
=
v
a
r
(
x
b
a
)
=
Σ
b
b
a
\Rightarrow var(x_b|x_a)=var(x_{ba})=\Sigma_{bba}
⇒var(xb∣xa)=var(xba)=Σbba
⇒
x
b
∣
x
a
服
从
N
(
μ
b
a
+
Σ
b
a
Σ
a
a
−
1
x
a
,
Σ
b
b
a
)
\Rightarrow x_b|x_a服从N(\mu_{ba}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a,\Sigma_{bba})
⇒xb∣xa服从N(μba+ΣbaΣaa−1xa,Σbba),条件概率得解。
因为有对称性,所以
x
b
∣
x
a
x_b|x_a
xb∣xa只需要更改a,b的位置。
3、例子
已知:
p
(
x
)
=
N
(
x
∣
μ
,
Λ
−
1
)
p(x)=N(x|\mu,\Lambda^{-1})
p(x)=N(x∣μ,Λ−1)
p
(
y
∣
x
)
=
N
(
y
∣
A
x
+
b
,
L
−
1
)
p(y|x)=N(y|Ax+b,L^{-1})
p(y∣x)=N(y∣Ax+b,L−1)
求
p
(
y
)
,
p
(
x
∣
y
)
p(y),p(x|y)
p(y),p(x∣y)
解:
(1)因为x服从高斯分布,且p(y|x)也为高斯分布,则x与y之间的关系为:
y
=
A
x
+
b
+
ϵ
,
其
中
ϵ
服
从
N
(
0
,
L
−
1
)
y=Ax+b+\epsilon,其中\epsilon服从N(0,L^{-1})
y=Ax+b+ϵ,其中ϵ服从N(0,L−1)
⇒
E
(
y
)
=
E
(
A
x
+
b
+
ϵ
)
=
A
E
(
x
)
+
b
=
A
μ
+
b
\Rightarrow E(y)=E(Ax+b+\epsilon)=AE(x)+b=A\mu+b
⇒E(y)=E(Ax+b+ϵ)=AE(x)+b=Aμ+b
⇒
v
a
r
(
y
)
=
A
v
a
r
(
x
)
A
T
=
A
Λ
−
1
A
\Rightarrow var(y)=Avar(x)A^T=A\Lambda^{-1}A
⇒var(y)=Avar(x)AT=AΛ−1A
所以
p
(
y
)
=
N
(
A
μ
+
b
,
A
Λ
−
1
A
)
p(y)=N(A\mu+b,A\Lambda^{-1}A)
p(y)=N(Aμ+b,AΛ−1A)。
(2)求条件概率,首先求联合概率,则根据2中的式子求解条件概率。
因为x服从高斯分布,y也服从高斯分布,则其联合分布也服从高斯分布,即
z
=
(
x
T
y
T
)
T
z=(x^T~~~y^T)^T
z=(xT yT)T也服从高斯分布,且
E
(
z
)
=
E(z)=
E(z)=
[
μ
A
μ
+
b
]
\begin{bmatrix} \mu \\ A\mu+b \end{bmatrix}
[μAμ+b]
v
a
r
(
z
)
=
var(z)=
var(z)=
[
Λ
−
1
Δ
Δ
T
L
−
1
+
A
Λ
−
1
A
T
]
\begin{bmatrix} \Lambda^{-1} & \Delta \\ \Delta^T & L^{-1}+A\Lambda^{-1}A^T \end{bmatrix}
[Λ−1ΔTΔL−1+AΛ−1AT]
此时,问题转化为求解
Δ
\Delta
Δ,
Δ
\Delta
Δ为x,y的协方差矩阵:
Δ
=
C
o
v
(
x
,
y
)
\Delta=Cov(x,y)
Δ=Cov(x,y)
=
E
(
x
−
E
(
x
)
)
(
y
−
E
(
y
)
)
T
=E(x-E(x))(y-E(y))^T
=E(x−E(x))(y−E(y))T
=
E
(
x
−
μ
)
(
y
−
A
μ
−
b
)
T
=E(x-\mu)(y-A\mu-b)^T
=E(x−μ)(y−Aμ−b)T
=
E
(
x
−
μ
)
(
A
x
+
b
+
ϵ
−
A
μ
−
b
)
T
=E(x-\mu)(Ax+b+\epsilon-A\mu-b)^T
=E(x−μ)(Ax+b+ϵ−Aμ−b)T
=
E
(
x
−
μ
)
(
A
x
−
A
μ
+
ϵ
)
T
=E(x-\mu)(Ax-A\mu+\epsilon)^T
=E(x−μ)(Ax−Aμ+ϵ)T
=
E
(
x
−
μ
)
(
A
x
−
A
μ
)
T
+
(
x
−
μ
)
ϵ
T
=E(x-\mu)(Ax-A\mu)^T+(x-\mu)\epsilon^T
=E(x−μ)(Ax−Aμ)T+(x−μ)ϵT
因为
x
与
ϵ
x与\epsilon
x与ϵ独立并且
E
(
ϵ
)
=
0
E(\epsilon)=0
E(ϵ)=0
⇒
=
E
(
x
−
μ
)
(
A
x
−
A
μ
)
T
\Rightarrow =E(x-\mu)(Ax-A\mu)^T
⇒=E(x−μ)(Ax−Aμ)T
=
E
[
(
x
−
μ
)
(
x
−
μ
)
T
]
A
=E[(x-\mu)(x-\mu)^T]A
=E[(x−μ)(x−μ)T]A
=
v
a
r
(
x
)
A
T
=var(x)A^T
=var(x)AT
=
Λ
−
1
A
T
=\Lambda^{-1}A^T
=Λ−1AT
⇒
Δ
=
Λ
−
1
A
T
\Rightarrow \Delta=\Lambda^{-1}A^T
⇒Δ=Λ−1AT
则
p
(
x
,
y
)
p(x,y)
p(x,y)求得,求解p(x|y)根据(2)中的条件概率计算公式。