14-高斯分布基础知识

1.高斯分布参数估计/样本数据定义

定义数据样本 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } , 其 中 x i ∈ R p , y i ∈ R , 其 中 x i = 1 , 2 , . . . , N D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\},其中x_i\in \mathbb{R}^p,y_i\in \mathbb{R},其中x_i = 1,2,...,N D={(x1,y1),(x2,y2),...,(xN,yN)},xiRp,yiR,xi=1,2,...,N
X = ( x 1 , x 2 , . . . , x N ) T = ( x 1 T x 2 T ⋮ x N T ) = ( x 11 x 12 . . . x 1 p x 21 x 22 . . . x 2 p ⋮ ⋮ ⋮ ⋮ x N 1 x N 2 . . . x N p ) N × P (1) X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P} \tag 1 X=(x1,x2,...,xN)T=x1Tx2TxNT=x11x21xN1x12x22xN2.........x1px2pxNpN×P(1)
其中 x i x_i xi是P维列向量,且 x i ∼ N ( μ , Σ ) x_i \sim N(\mu,\Sigma) xiN(μ,Σ),我们可以看出 θ = N ( μ , Σ ) \theta=N(\mu,\Sigma) θ=N(μ,Σ)

2.极大似然法求 μ M L E , σ M L E 2 \mu_{MLE},\sigma^2_{MLE} μMLE,σMLE2

2.1 L ( θ ) 表 达 式 L(\theta)表达式 L(θ)

我们知道每一个单变量 x i x_i xi服从高斯分布,由高斯分布密度函数为:
P ( x i ∣ θ ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) (2) P(x_i|\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp^{(-\frac{(x-\mu)^2}{2\sigma^2})} \tag 2 P(xiθ)=2π σ1exp(2σ2(xμ)2)(2)
我们希望通过观察到的数据来计算参数 θ \theta θ的值,那么我们可以使用极大似然估计法求,
由于我们假设 x i 是 服 从 独 立 同 分 布 的 , 所 以 可 得 如 下 : x_i是服从独立同分布的,所以可得如下: xi
θ M L E = a r g m a x θ log ⁡ ∏ i = 1 N p ( x i ∣ θ ) = a r g m a x θ ∑ i = 1 N log ⁡ p ( x i ∣ θ ) (3) \theta_{MLE}=argmax_{\theta} \log \prod_{i=1}^{N} p(x_i|\theta)=argmax_{\theta}\sum_{i=1}^{N} \log p(x_i|\theta) \tag3 θMLE=argmaxθlogi=1Np(xiθ)=argmaxθi=1Nlogp(xiθ)(3)
代入 P ( x i ∣ θ ) P(x_i|\theta) P(xiθ)可得:
L ( θ ) = a r g m a x θ ∑ i = 1 N log ⁡ [ 1 2 π ] − ∑ i = 1 N log ⁡ [ σ ] − ∑ i = 1 N ( x i − μ ) 2 2 σ 2 (4) L(\theta)=argmax_{\theta}\sum_{i=1}^{N} \log [\frac{1}{\sqrt{2\pi}}]-\sum_{i=1}^{N}\log[\sigma]-\sum_{i=1}^{N}\frac{(x_i-\mu)^2}{2\sigma^2} \tag4 L(θ)=argmaxθi=1Nlog[2π 1]i=1Nlog[σ]i=1N2σ2(xiμ)2(4)
为方便计算,我们令:①= ∑ i = 1 N log ⁡ [ 1 2 π ] \sum_{i=1}^{N} \log [\frac{1}{\sqrt{2\pi}}] i=1Nlog[2π 1];②= ∑ i = 1 N log ⁡ [ σ ] \sum_{i=1}^{N}\log[\sigma] i=1Nlog[σ];③= ∑ i = 1 N ( x i − μ ) 2 2 σ 2 \sum_{i=1}^{N}\frac{(x_i-\mu)^2}{2\sigma^2} i=1N2σ2(xiμ)2
那么 L ( θ ) = ① − ② − ③ L(\theta)=①-②-③ L(θ)=

2.2 极大似然法求 μ M L E \mu_{MLE} μMLE

由极大似然法我们可以得到只需要将 L ( θ ) L(\theta) L(θ) μ \mu μ求偏导,并令其为零。
∂ L ( θ ) ∂ μ = 0 (5) \frac{\partial {L(\theta)}}{\partial \mu}=0 \tag5 μL(θ)=0(5)
展开上式可得如下:
∂ L ( θ ) ∂ μ = 0 − 0 − ∑ i = 1 N 2 ( x i − μ ) 2 σ 2 ( − 1 ) = 0 (6) \frac{\partial {L(\theta)}}{\partial \mu}=0-0-\sum_{i=1}^{N}\frac{2(x_i-\mu)}{2\sigma^2}(-1)=0 \tag6 μL(θ)=00i=1N2σ22(xiμ)(1)=0(6)
整理上式可得:
∑ i = 1 N ( x i − μ ) = 0 (7) \sum_{i=1}^{N}(x_i-\mu)=0 \tag7 i=1N(xiμ)=0(7)
∑ i = 1 N x i = ∑ i = 1 N μ = N μ (8) \sum_{i=1}^{N}x_i=\sum_{i=1}^{N}\mu=N \mu \tag8 i=1Nxi=i=1Nμ=Nμ(8)
结 论 : μ M L E = ∑ i = 1 N x i N (9) 结论:\mu_{MLE}=\frac{\sum_{i=1}^{N}x_i}{N} \tag9 μMLE=Ni=1Nxi(9)

2.3无偏估计 μ M L E \mu_{MLE} μMLE

由概率知识可得,如果我们求得 E [ μ M L E ] = μ ; 那 么 μ M L E 就 是 无 偏 估 计 ; \mathbb{E}[\mu_{MLE}]=\mu;那么\mu_{MLE}就是无偏估计; E[μMLE]=μ;μMLE
$ E [ μ M L E ] = E [ ∑ i = 1 N x i N ] = 1 N E [ ∑ i = 1 N x i ] = 1 N N μ = μ (10) \mathbb{E}[\mu_{MLE}]=\mathbb{E}[\frac{\sum_{i=1}^{N}x_i}{N}]=\frac{1}{N}\mathbb{E}[\sum_{i=1}^{N}x_i]=\frac{1}{N}N\mu=\mu \tag{10} E[μMLE]=E[Ni=1Nxi]=N1E[i=1Nxi]=N1Nμ=μ(10)

2.4 极大似然法求 σ M L E 2 \sigma^2_{MLE} σMLE2

由极大似然法我们可以得到只需要将 L ( θ ) L(\theta) L(θ) σ \sigma σ求偏导,并令其为零。
∂ L ( θ ) ∂ σ = 0 (11) \frac{\partial {L(\theta)}}{\partial \sigma}=0 \tag{11} σL(θ)=0(11)
展开上式可得如下:
∂ L ( θ ) ∂ σ = 0 − ∑ i = 1 N 1 σ + ∑ i = 1 N ( x i − μ ) 2 σ − 3 (12) \frac{\partial {L(\theta)}}{\partial \sigma}=0-\sum_{i=1}^{N}\frac{1}{\sigma}+\sum_{i=1}^{N}(x_i-\mu)^2\sigma^{-3}\tag{12} σL(θ)=0i=1Nσ1+i=1N(xiμ)2σ3(12)
整理上式可得:
结 论 : σ M L E 2 = 1 N ∑ i = 1 N ( x i − μ M L E ) 2 (13) 结论:\sigma^2_{MLE}=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu_{MLE})^2 \tag{13} σMLE2=N1i=1N(xiμMLE)2(13)

2.5 有偏估计 σ M L E 2 \sigma^2_{MLE} σMLE2

由极大似然法可得:
σ M L E 2 = 1 N ∑ i = 1 N ( x i − μ M L E ) 2 = 1 N ∑ i = 1 N x i 2 + 1 N ∑ i = 1 N μ M L E 2 − 1 N ∑ i = 1 N 2 x i μ M L E (14) \sigma^2_{MLE}=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu_{MLE})^2=\frac{1}{N}\sum_{i=1}^{N}x_i^2+\frac{1}{N}\sum_{i=1}^{N}\mu_{MLE}^2-\frac{1}{N}\sum_{i=1}^{N}2x_i\mu_{MLE} \tag{14} σMLE2=N1i=1N(xiμMLE)2=N1i=1Nxi2+N1i=1NμMLE2N1i=1N2xiμMLE(14)
由于 μ M L E = ∑ i = 1 N x i N \mu_{MLE}=\frac{\sum_{i=1}^{N}x_i}{N} μMLE=Ni=1Nxi所以可得如下:
σ M L E 2 = 1 N ∑ i = 1 N x i 2 + N N μ M L E 2 − 2 μ M L E 2 = 1 N ∑ i = 1 N x i 2 − μ M L E 2 (15) \sigma^2_{MLE}=\frac{1}{N}\sum_{i=1}^{N}x_i^2+\frac{N}{N}\mu_{MLE}^2-2\mu_{MLE} ^2=\frac{1}{N}\sum_{i=1}^{N}x_i^2-\mu_{MLE} ^2\tag{15} σMLE2=N1i=1Nxi2+NNμMLE22μMLE2=N1i=1Nxi2μMLE2(15)
由期望方差关系公式可得:
E [ X 2 ] − [ E ( X ) ] 2 = D ( X ) (16) \mathbb{E}[X^2]-[\mathbb{E}(X)]^2=\mathbb{D}(X) \tag{16} E[X2][E(X)]2=D(X)(16)
E [ 1 N ∑ i = 1 N x i 2 ] = 1 N ∑ i = 1 N E [ x i 2 ] = 1 N ∑ i = 1 N ( [ E ( x i ) ] 2 + D ( x i ) ) = 1 N ∑ i = 1 N [ μ 2 + σ 2 ] = μ 2 + σ 2 (17) \mathbb{E}[\frac{1}{N}\sum_{i=1}^{N}x_i^2]=\frac{1}{N}\sum_{i=1}^{N}\mathbb{E}[x_i^2]=\frac{1}{N}\sum_{i=1}^{N}([\mathbb{E}{(x_i)]}^2+D(x_i))=\frac{1}{N}\sum_{i=1}^{N}[\mu^2+\sigma^2]=\mu^2+\sigma^2 \tag{17} E[N1i=1Nxi2]=N1i=1NE[xi2]=N1i=1N([E(xi)]2+D(xi))=N1i=1N[μ2+σ2]=μ2+σ2(17)
E [ μ M L E 2 ] = ( E ( μ M L E ) ) 2 + D ( μ M L E ) = μ 2 + D ( ∑ i = 1 N x i N ) = μ 2 + 1 N 2 ∑ i = 1 N D ( x i ) = μ 2 + 1 N σ 2 (18) \mathbb{E}[\mu_{MLE} ^2]=(\mathbb{E}(\mu_{MLE}))^2+D(\mu_{MLE})=\mu^2+D(\frac{\sum_{i=1}^{N}x_i}{N})=\mu^2+\frac{1}{N^2}\sum_{i=1}^{N}D(x_i)=\mu^2+\frac{1}{N}\sigma^2 \tag{18} E[μMLE2]=(E(μMLE))2+D(μMLE)=μ2+D(Ni=1Nxi)=μ2+N21i=1ND(xi)=μ2+N1σ2(18)
E [ σ M L E 2 ] = μ 2 + σ 2 − ( μ 2 + 1 N σ 2 ) = N − 1 N σ 2 (19) \mathbb{E}[\sigma^2_{MLE}]=\mu^2+\sigma^2-(\mu^2+\frac{1}{N}\sigma^2)=\frac{N-1}{N}\sigma^2 \tag{19} E[σMLE2]=μ2+σ2(μ2+N1σ2)=NN1σ2(19)
故 : E [ σ M L E 2 ] ≠ σ 2 (20) 故:\mathbb{E}[\sigma^2_{MLE}]≠\sigma^2 \tag{20} E[σMLE2]=σ2(20)
结 论 : σ M L E 2 是 有 偏 估 计 结论:\sigma^2_{MLE}是有偏估计 σMLE2
注:我们在求 σ M L E 2 时 , 我 们 用 的 是 μ M L E , 而 不 是 μ , 而 μ M L E 是 我 们 通 过 样 本 数 据 来 生 成 的 \sigma^2_{MLE}时,我们用的是\mu_{MLE},而不是\mu,而\mu_{MLE}是我们通过样本数据来生成的 σMLE2μMLEμ,μMLE,那么它就一定会出现部分误差,并且用局部样本去估算整体样本时会偏小,无法完全覆盖整个样本。所以,我们在高斯正太分布中,利用极大似然估计求出来的 σ M L E 2 \sigma^2_{MLE} σMLE2偏小。

3.多变量的高斯分布

3.1 多变量的高斯分布样本定义:

多变量的高斯分布 X ∼ N ( μ , Σ ) X\sim N(\mu,\Sigma) XN(μ,Σ),其概率密度函数如下:
P ( x i ∣ θ ) = 1 ( 2 π ) p 2 ∣ Σ ∣ 1 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) (21) P(x_i|\theta)=\frac{1}{{(2\pi)^{\frac{p}{2}}}|\Sigma|^\frac{1}{2}}exp^{(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))} \tag {21} P(xiθ)=(2π)2pΣ211exp(21(xμ)TΣ1(xμ))(21)
X = ( x 1 , x 2 , . . . , x N ) T = ( x 1 T x 2 T ⋮ x N T ) P × 1 = ( x 11 x 12 . . . x 1 p x 21 x 22 . . . x 2 p ⋮ ⋮ ⋮ ⋮ x N 1 x N 2 . . . x N p ) N × P (22) X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}_{P\times 1}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P} \tag {22} X=(x1,x2,...,xN)T=x1Tx2TxNTP×1=x11x21xN1x12x22xN2.........x1px2pxNpN×P(22)
Σ = ( σ 11 σ 12 . . . σ 1 p σ 21 σ 22 . . . σ 2 p ⋮ ⋮ ⋮ ⋮ σ p 1 σ p 2 . . . σ p p ) p × P ; μ = ( μ 1 T μ 2 T ⋮ μ p T ) P × 1 (23) \Sigma=\begin{pmatrix} \sigma_{11}&\sigma_{12}&...&\sigma_{1p}\\\sigma_{21}&\sigma_{22}&...&\sigma_{2p}\\\vdots&\vdots&\vdots&\vdots\\\sigma_{p1}&\sigma_{p2}&...&\sigma_{pp}\end{pmatrix}_{p \times P} ;\mu=\begin{pmatrix} \mu_1^T\\\mu_2^T\\\vdots\\\mu_p^T \end{pmatrix}_{P\times 1}\tag {23} Σ=σ11σ21σp1σ12σ22σp2.........σ1pσ2pσppp×P;μ=μ1Tμ2TμpTP×1(23)
注:我们一般默认为 Σ \Sigma Σ为半正定矩阵,这里为了方便计算,我们假设 Σ \Sigma Σ为正定矩阵。

3.2马氏距离

对于多元高斯分布,我们认为马氏距离L(实数)为:
L = ( x − μ ) T Σ − 1 ( x − μ ) (24) L=(x-\mu)^T\Sigma^{-1}(x-\mu) \tag {24} L=(xμ)TΣ1(xμ)(24)
由于 Σ \Sigma Σ为正定矩阵,故可以对其进行特征值分解:
Σ = U Λ U T ; U T U = U U T = I ; Λ = d i a g ( λ i ) ; i = 1 , 2 , . . . , N ; U = ( u 1 , u 2 , . . . , u p ) (25) \Sigma=U\Lambda U^T;U^TU=UU^T=I;\Lambda=diag(\lambda_{i});i=1,2,...,N ;U=(u_1,u_2,...,u_p)\tag {25} Σ=UΛUT;UTU=UUT=IΛ=diag(λi);i=1,2,...,N;U=(u1,u2,...,up)(25)
Σ = U Λ U T = ( u 1 , u 2 , . . . , u p ) ( λ 1 λ 2 ⋮ λ p ) ( u 1 T u 2 T ⋮ u p T ) = ∑ i = 1 p u i λ i u i T (26) \Sigma=U\Lambda U^T=(u_1,u_2,...,u_p)\begin{pmatrix} \lambda_{1}&&&\\&\lambda_{2}&&\\&&\vdots&\\&&&\lambda_{p}\end{pmatrix}\begin{pmatrix} u_1^T\\u_2^T\\\vdots\\u_p^T \end{pmatrix}=\sum_{i=1}^{p}u_i \lambda_iu_i^T \tag {26} Σ=UΛUT=(u1,u2,...,up)λ1λ2λpu1Tu2TupT=i=1puiλiuiT(26)
Σ − 1 = ( U Λ U T ) − 1 = U Λ − 1 U T = ∑ i = 1 p u i 1 λ i u i T (27) \Sigma^{-1}=(U\Lambda U^T)^{-1}=U\Lambda^{-1}U^T=\sum_{i=1}^{p}u_i \frac{1}{\lambda_i}u_i^T \tag {27} Σ1=(UΛUT)1=UΛ1UT=i=1puiλi1uiT(27)
我们将上式代入到马氏距离L上可得如下:
L = ( x − μ ) T Σ − 1 ( x − μ ) = ( x − μ ) T ∑ i = 1 p u i 1 λ i u i T ( x − μ ) (28) L=(x-\mu)^T\Sigma^{-1}(x-\mu)=(x-\mu)^T\sum_{i=1}^{p}u_i \frac{1}{\lambda_i}u_i^T(x-\mu) \tag {28} L=(xμ)TΣ1(xμ)=(xμ)Ti=1puiλi1uiT(xμ)(28)
L = 1 λ i ∑ i = 1 p [ ( x − μ ) T u i ] [ u i T ( x − μ ) ] (29) L=\frac{1}{\lambda_i}\sum_{i=1}^{p}[(x-\mu)^Tu_i ][u_i^T(x-\mu)] \tag {29} L=λi1i=1p[(xμ)Tui][uiT(xμ)](29)
我们令 y i = ( y 1 T y 2 T ⋮ y N T ) = ( x − μ ) T u i (30) y_i=\begin{pmatrix} y_1^T\\y_2^T\\\vdots\\y_N^T \end{pmatrix}=(x-\mu)^T u_i \tag {30} yi=y1Ty2TyNT=(xμ)Tui(30)
L = ∑ i = 1 p 1 λ i y i y i T = ∑ i = 1 p y i 2 λ i (31) L=\sum_{i=1}^{p}\frac{1}{\lambda_i}y_iy_i^T=\sum_{i=1}^{p}\frac{y_i^2}{\lambda_i} \tag {31} L=i=1pλi1yiyiT=i=1pλiyi2(31)
我们假设p=2 ,则 L = y 1 2 λ 1 + y 2 2 λ 2 ; 表 示 为 一 个 椭 圆 L =\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2};表示为一个椭圆 L=λ1y12+λ2y22 如果L取不同的值,我们就可以像等高线一样切除高斯三维的模型,截面形成一个椭圆形状。
y i = ( x − μ ) T u i ; 几 何 意 义 解 释 : y_i=(x-\mu)^T u_i ;几何意义解释: yi=(xμ)Tui
1. x 先 向 中 心 偏 移 后 得 到 的 向 量 ( x − μ ) T ; 2. 向 量 ( x − μ ) T 在 u i 上 的 投 影 1.x先向中心偏移后得到的向量(x-\mu)^T; 2.向量(x-\mu)^T在u_i上的投影 1.x(xμ)T;2.(xμ)Tui
在这里插入图片描述

4.已知联合概率密度p(x,y),求条件概率密度p(x|y)和边缘概率密度p(x)

4.1样本定义

多变量的高斯分布 X ∼ N ( μ , Σ ) X\sim N(\mu,\Sigma) XN(μ,Σ),其概率密度函数如下:
P ( x i ∣ θ ) = 1 ( 2 π ) p 2 ∣ Σ ∣ 1 2 e x p ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) (32) P(x_i|\theta)=\frac{1}{{(2\pi)^{\frac{p}{2}}}|\Sigma|^\frac{1}{2}}exp^{(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))} \tag {32} P(xiθ)=(2π)2pΣ211exp(21(xμ)TΣ1(xμ))(32)
X = ( x 1 , x 2 , . . . , x N ) T = ( x 1 T x 2 T ⋮ x N T ) P × 1 = ( x 11 x 12 . . . x 1 p x 21 x 22 . . . x 2 p ⋮ ⋮ ⋮ ⋮ x N 1 x N 2 . . . x N p ) N × P (33) X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}_{P\times 1}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P} \tag {33} X=(x1,x2,...,xN)T=x1Tx2TxNTP×1=x11x21xN1x12x22xN2.........x1px2pxNpN×P(33)
Σ = ( σ 11 σ 12 . . . σ 1 p σ 21 σ 22 . . . σ 2 p ⋮ ⋮ ⋮ ⋮ σ p 1 σ p 2 . . . σ p p ) p × p ; μ = ( μ 1 T μ 2 T ⋮ μ p T ) P × 1 (34) \Sigma=\begin{pmatrix} \sigma_{11}&\sigma_{12}&...&\sigma_{1p}\\\sigma_{21}&\sigma_{22}&...&\sigma_{2p}\\\vdots&\vdots&\vdots&\vdots\\\sigma_{p1}&\sigma_{p2}&...&\sigma_{pp}\end{pmatrix}_{p \times p} ;\mu=\begin{pmatrix} \mu_1^T\\\mu_2^T\\\vdots\\\mu_p^T \end{pmatrix}_{P\times 1}\tag {34} Σ=σ11σ21σp1σ12σ22σp2.........σ1pσ2pσppp×p;μ=μ1Tμ2TμpTP×1(34)
注:我们一般默认为 Σ \Sigma Σ为半正定矩阵,这里为了方便计算,我们假设 Σ \Sigma Σ为正定矩阵。
目的:已知联合概率密度求条件概率密度和边缘概率密度,可描述为已知 x a 为 m 维 度 , x b 为 n 维 度 ; x_a为m维度,x_b为n维度; xamxbn
已 知 : X = ( x a x b ) ; m + n = p ; μ = ( μ a μ b ) ; Σ = ( Σ a a Σ a b Σ a b Σ b b ) ; Σ a b = Σ b a T (35) 已知:X= \begin{pmatrix} x_a\\\\x_b \end{pmatrix};m+n=p;\mu= \begin{pmatrix} \mu_a\\\\\mu_b \end{pmatrix};\Sigma= \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix};\Sigma_{ab}=\Sigma_{ba}^T \tag {35} X=xaxb;m+n=p;μ=μaμb;Σ=(ΣaaΣabΣabΣbb);Σab=ΣbaT(35)
求 边 缘 概 率 p ( x a ) , 条 件 概 率 p ( x b ∣ x a ) 求边缘概率p(x_a),条件概率p(x_b|x_a) p(xa),p(xbxa)

4.2 引入相关公式-线性组合

已 知 : X 服 从 高 斯 分 布 X ∼ N ( μ , Σ ) , Y 与 X 满 足 线 性 关 系 , Y = A X + B 已知:X服从高斯分布X\sim N(\mu,\Sigma),Y与X满足线性关系,Y=AX+B :XXN(μ,Σ),YX线Y=AX+B
结 论 : Y 服 从 高 斯 分 布 Y ∼ N ( A μ + B , A Σ A T ) 结论:Y服从高斯分布Y\sim N(A\mu+B,A\Sigma A^T) YYN(Aμ+B,AΣAT)
证明:
E [ Y ] = E [ A X + B ] = A E [ X ] + B = A μ + B E[Y]=E[AX+B]=AE[X]+B=A\mu+B E[Y]=E[AX+B]=AE[X]+B=Aμ+B
D [ Y ] = D [ A X + B ] = D [ A X ] + 0 = A D [ X ] A T = A Σ A T D[Y]=D[AX+B]=D[AX]+0=AD[X]A^T=A\Sigma A^T D[Y]=D[AX+B]=D[AX]+0=AD[X]AT=AΣAT

4.3 独立性证明

X 若 服 从 高 斯 分 布 X ∼ N ( μ , Σ ) , 则 M X ⊥ N X ⟺ M Σ N T = 0 (36) X若服从高斯分布X\sim N(\mu,\Sigma),则MX \bot NX\Longleftrightarrow M\Sigma N^T=0\tag {36} XXN(μ,Σ),MXNXMΣNT=0(36)
证明:
∵ X ∼ N ( μ , Σ ) \because X\sim N(\mu,\Sigma) XN(μ,Σ)
∴ M X ∼ N ( M μ , M Σ M T ) ; N X ∼ N ( N μ , N Σ N T ) \therefore MX\sim N(M\mu,M\Sigma M^T);NX\sim N(N\mu,N\Sigma N^T) MXN(Mμ,MΣMT);NXN(Nμ,NΣNT)

由定义可得:
C O V ( M X , N X ) COV(MX,NX) COV(MX,NX)

= E [ ( M X − M μ ) ( N X − N μ ) T ] =E[(MX-M\mu)(NX-N\mu)^T] =E[(MXMμ)(NXNμ)T]

= E [ ( M ( X − μ ) ( X − μ ) T N T ] =E[(M(X-\mu)(X-\mu)^TN^T] =E[(M(Xμ)(Xμ)TNT]

= M ⋅ E [ ( ( X − μ ) ( X − μ ) T ] ⋅ N T =M\cdot E[((X-\mu)(X-\mu)^T]\cdot N^T =ME[((Xμ)(Xμ)T]NT

= M Σ N T =M\Sigma N^T =MΣNT

∵ X ∼ N ( μ , Σ ) , M X ⊥ N X \because X\sim N(\mu,\Sigma),MX \bot NX XN(μ,Σ),MXNX

∴ M X 和 N X 相 互 独 立 \therefore MX和NX相互独立 MXNX

∴ C O V ( M X , N X ) = 0 \therefore COV(MX,NX)=0 COV(MX,NX)=0

∵ C O V ( M X , N X ) = M Σ N T \because COV(MX,NX)=M\Sigma N^T COV(MX,NX)=MΣNT

∴ M Σ N T = 0 \therefore M\Sigma N^T=0 MΣNT=0

我们定义 Σ = ( Σ a a Σ a b Σ a b Σ b b ) , X b ⋅ a = X b − Σ b a Σ a a − 1 X a ; 我 们 用 矩 阵 形 式 表 达 X b ⋅ a , X a \Sigma= \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix},X_{b\cdot a}=X_b-\Sigma_{ba}\Sigma_{aa}^{-1}X_a;我们用矩阵形式表达X_{b\cdot a},X_a Σ=(ΣaaΣabΣabΣbb),Xba=XbΣbaΣaa1Xa;XbaXa
X b ⋅ a = ( − Σ b a Σ a a − 1 , I ) ( x a x b ) ; X a = ( I , 0 ) ( x a x b ) ; (37) X_{b\cdot a}=(-\Sigma_{ba}\Sigma_{aa}^{-1},I) \begin{pmatrix} x_a\\\\x_b \end{pmatrix};X_a=(I,0) \begin{pmatrix} x_a\\\\x_b \end{pmatrix};\tag{37} Xba=(ΣbaΣaa1,I)xaxb;Xa=(I,0)xaxb;(37)
M = ( − Σ b a Σ a a − 1 , I ) ; X = ( x a x b ) ; N = ( I , 0 ) (38) M=(-\Sigma_{ba}\Sigma_{aa}^{-1},I);X= \begin{pmatrix} x_a\\\\x_b \end{pmatrix};N=(I,0) \tag{38} M=(ΣbaΣaa1,I);X=xaxb;N=(I,0)(38)
∵ M Σ N T = ( − Σ b a Σ a a − 1 , I ) ( Σ a a Σ a b Σ a b Σ b b ) ( I 0 ) = ( 0 , − Σ b a Σ a a − 1 Σ a b + Σ b b ) ( I 0 ) = 0 \because M\Sigma N^T=(-\Sigma_{ba}\Sigma_{aa}^{-1},I) \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix} \begin{pmatrix} I\\\\0 \end{pmatrix}=(0,-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}+\Sigma_{bb})\begin{pmatrix} I\\\\0 \end{pmatrix}=0 MΣNT=(ΣbaΣaa1,I)(ΣaaΣabΣabΣbb)I0=(0,ΣbaΣaa1Σab+Σbb)I0=0
∴ M X ⊥ N X \therefore MX \bot NX MXNX
∴ X b ⋅ a ⊥ X a \therefore X_{b\cdot a} \bot X_a XbaXa
结 论 : X b ⋅ a ∣ X a = X b ⋅ a (39) 结论:X_{b\cdot a}|X_a=X_{b\cdot a} \tag{39} XbaXa=Xba(39)
我 们 定 义 : X b = X b ⋅ a + Σ b a Σ a a − 1 X a 我们定义:X_b=X_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}X_a :Xb=Xba+ΣbaΣaa1Xa

X b ∣ X a = X b ⋅ a ∣ X a + Σ b a Σ a a − 1 X a ∣ X a = X b ⋅ a + Σ b a Σ a a − 1 X a = X b (40) X_{b}|X_a=X_{b\cdot a}|X_a+\Sigma_{ba}\Sigma_{aa}^{-1}X_a|X_a=X_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}X_a=X_b \tag{40} XbXa=XbaXa+ΣbaΣaa1XaXa=Xba+ΣbaΣaa1Xa=Xb(40)
结 论 : X b ∣ X a ⊥ X b (41) 结论:X_{b}|X_a \bot X_b \tag{41} XbXaXb(41)
E [ X b ∣ X a ] = E [ X b ] (42) \mathbb{E}[X_{b}|X_a]=\mathbb{E}[X_{b}] \tag{42} E[XbXa]=E[Xb](42)
D [ X b ∣ X a ] = D [ X b ] (42) \mathbb{D}[X_{b}|X_a]=\mathbb{D}[X_{b}] \tag{42} D[XbXa]=D[Xb](42)

4.4边缘概率 P ( x a ) P(x_a) P(xa)

由于我们已知: X = ( x a x b ) X= \begin{pmatrix} x_a\\\\x_b \end{pmatrix} X=xaxb;我们构造变量 X a X_a Xa满足如下公式:
X a = ( I m , 0 ) ( x a x b ) (43) X_a=(I_m,0) \begin{pmatrix} x_a\\\\x_b \end{pmatrix}\tag{43} Xa=(Im,0)xaxb(43)
我们可以令
A = ( I m , 0 ) ; X = ( x a x b ) (44) A=(I_m,0);X=\begin{pmatrix} x_a\\\\x_b \end{pmatrix}\tag{44} A=(Im,0);X=xaxb(44)
则 : X a = A X 则:X_a=AX Xa=AX
已 知 : X 服 从 高 斯 分 布 X ∼ N ( μ , Σ ) , Y 与 X 满 足 线 性 关 系 , Y = A X + B 已知:X服从高斯分布X\sim N(\mu,\Sigma),Y与X满足线性关系,Y=AX+B :XXN(μ,Σ),YX线Y=AX+B
结 论 : Y 服 从 高 斯 分 布 Y ∼ N ( A μ + B , A Σ A T ) 结论:Y服从高斯分布Y\sim N(A\mu+B,A\Sigma A^T) YYN(Aμ+B,AΣAT)
E [ X a ] = A E [ X ] ; 已 知 : E [ X ] = ( μ a μ b ) (45) \mathbb{E}[X_a]=A\mathbb{E}[X];已知:\mathbb{E}[X]=\begin{pmatrix} \mu_a\\\mu_b \end{pmatrix}\tag{45} E[Xa]=AE[X];E[X]=(μaμb)(45)
E [ X a ] = ( I m , 0 ) ( μ a μ b ) = μ a (46) \mathbb{E}[X_a]=(I_m,0)\begin{pmatrix} \mu_a\\\mu_b \end{pmatrix}=\mu_a \tag{46} E[Xa]=(Im,0)(μaμb)=μa(46)
D ( X a ) = A D [ X ] A T ; 已 知 : D [ X ] = Σ = ( Σ a a Σ a b Σ a b Σ b b ) (47) \mathbb{D}(X_a)=A\mathbb{D}[X]A^T;已知:\mathbb{D}[X]=\Sigma= \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix}\tag{47} D(Xa)=AD[X]AT;D[X]=Σ=(ΣaaΣabΣabΣbb)(47)
D ( X a ) = A Σ A T = ( I m , 0 ) ( Σ a a Σ a b Σ a b Σ b b ) ( I m 0 ) = Σ a a (48) \mathbb{D}(X_a)=A\Sigma A^T= (I_m,0)\begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix}\begin{pmatrix} I_m\\0 \end{pmatrix}=\Sigma_{aa}\tag{48} D(Xa)=AΣAT=(Im,0)(ΣaaΣabΣabΣbb)(Im0)=Σaa(48)
结 论 : X a ∼ N ( μ a , Σ a a ) 结论:X_a\sim N(\mu_a,\Sigma_{aa}) XaN(μa,Σaa)

4.5条件概率密度 p ( x b ∣ x a ) p(x_b|x_a) p(xbxa)

这里我们运用构造法来求,我们需要引入如下构造公式:
x b ⋅ a = x b − Σ b a Σ a a − 1 x a (49) x_{b \cdot a}=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_a \tag{49} xba=xbΣbaΣaa1xa(49)
μ b ⋅ a = μ b − Σ b a Σ a a − 1 μ a (50) \mu_{b \cdot a}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a \tag{50} μba=μbΣbaΣaa1μa(50)
Σ b b ⋅ a = Σ b b − Σ b a Σ a a − 1 Σ a b (51) \Sigma_{bb \cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{51} Σbba=ΣbbΣbaΣaa1Σab(51)
我们可以将 X b ⋅ a X_{b \cdot a} Xba用矩阵形式表示:
x b ⋅ a = ( − Σ b a Σ a a − 1 , I n ) ( x a x b ) (52) x_{b \cdot a}=(-\Sigma_{ba}\Sigma_{aa}^{-1},I_n)\begin{pmatrix} x_a\\\\x_b \end{pmatrix}\tag{52} xba=(ΣbaΣaa1,In)xaxb(52)
令 : A 1 = ( − Σ b a Σ a a − 1 , I n ) ; X = ( x a x b ) ; Y = x b ⋅ a (53) 令:A_1=(-\Sigma_{ba}\Sigma_{aa}^{-1},I_n);X=\begin{pmatrix} x_a\\\\x_b \end{pmatrix};Y=x_{b \cdot a} \tag{53} :A1=(ΣbaΣaa1,In);X=xaxb;Y=xba(53)
E [ Y ] = A 1 E [ X ] = ( − Σ b a Σ a a − 1 , I n ) ( μ a μ b ) = μ b − Σ b a Σ a a − 1 μ a = μ b ⋅ a (54) \mathbb{E}[Y]=A_1\mathbb{E}[X]=(-\Sigma_{ba}\Sigma_{aa}^{-1},I_n)\begin{pmatrix} \mu_a\\\mu_b \end{pmatrix}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a=\mu_{b \cdot a}\tag{54} E[Y]=A1E[X]=(ΣbaΣaa1,In)(μaμb)=μbΣbaΣaa1μa=μba(54)
D [ Y ] = A 1 D [ X ] A 1 T = ( − Σ b a Σ a a − 1 , I n ) ( Σ a a Σ a b Σ a b Σ b b ) ( − Σ b a Σ a a − 1 I n ) = Σ b b − Σ b a Σ a a − 1 Σ a b = Σ b b ⋅ a (55) \mathbb{D}[Y]=A_1\mathbb{D}[X]A_1^T=(-\Sigma_{ba}\Sigma_{aa}^{-1},I_n)\begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix}\begin{pmatrix} -\Sigma_{ba}\Sigma_{aa}^{-1}\\\\I_n \end{pmatrix}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}=\Sigma_{bb \cdot a} \tag{55} D[Y]=A1D[X]A1T=(ΣbaΣaa1,In)(ΣaaΣabΣabΣbb)ΣbaΣaa1In=ΣbbΣbaΣaa1Σab=Σbba(55)
Y = x b ⋅ a ∼ N ( μ b ⋅ a , Σ b b ⋅ a ) (56) Y=x_{b \cdot a}\sim N(\mu_{b \cdot a},\Sigma_{bb \cdot a})\tag{56} Y=xbaN(μba,Σbba)(56)
由于我们定义了: x b ⋅ a = x b − Σ b a Σ a a − 1 x a ; ( 49 公 式 ) ; 独 立 性 : X b ⋅ a ∣ X a = X b ⋅ a x_{b \cdot a}=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_a;(49公式);独立性:X_{b\cdot a}|X_a=X_{b\cdot a} xba=xbΣbaΣaa1xa;(49)XbaXa=Xba
条 件 性 : x b ⋅ a ∣ x a = x b ∣ x a − Σ b a Σ a a − 1 x a ∣ x a ; (57) 条件性:x_{b \cdot a}|x_a=x_{b}|x_a-\Sigma_{ba}\Sigma_{aa}^{-1}x_a|x_a;\tag{57} xbaxa=xbxaΣbaΣaa1xaxa;(57)
x b ⋅ a = x b ∣ x a − Σ b a Σ a a − 1 x a ; (58) x_{b\cdot a}=x_{b}|x_a-\Sigma_{ba}\Sigma_{aa}^{-1}x_a;\tag{58} xba=xbxaΣbaΣaa1xa;(58)
E [ x b ⋅ a ] = E [ x b ∣ x a ] − Σ b a Σ a a − 1 x a (59) \mathbb{E}[x_{b\cdot a}]=\mathbb{E}[x_{b}|x_a]-\Sigma_{ba}\Sigma_{aa}^{-1}x_a \tag{59} E[xba]=E[xbxa]ΣbaΣaa1xa(59)
x a 是 已 知 量 ; 可 以 将 Σ b a Σ a a − 1 x a 看 作 常 量 对 待 x_a是已知量;可以将\Sigma_{ba}\Sigma_{aa}^{-1}x_a看作常量对待 xa;ΣbaΣaa1xa
E [ x b ∣ x a ] = E [ x b ⋅ a ] + Σ b a Σ a a − 1 x a (60) \mathbb{E}[x_{b}|x_a]=\mathbb{E}[x_{b\cdot a}]+\Sigma_{ba}\Sigma_{aa}^{-1}x_a \tag{60} E[xbxa]=E[xba]+ΣbaΣaa1xa(60)
E [ x b ⋅ a ] = μ b ⋅ a = μ b − Σ b a Σ a a − 1 μ a ; (61) \mathbb{E}[x_{b\cdot a}]=\mu_{b \cdot a}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a;\tag{61} E[xba]=μba=μbΣbaΣaa1μa;(61)
E [ x b ∣ x a ] = μ b − Σ b a Σ a a − 1 μ a + Σ b a Σ a a − 1 x a (62) \mathbb{E}[x_{b}|x_a]=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a+\Sigma_{ba}\Sigma_{aa}^{-1}x_a\tag{62} E[xbxa]=μbΣbaΣaa1μa+ΣbaΣaa1xa(62)
E [ x b ∣ x a ] = μ b + Σ b a Σ a a − 1 ( x a − μ a ) (63) \mathbb{E}[x_{b}|x_a]=\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a)\tag{63} E[xbxa]=μb+ΣbaΣaa1(xaμa)(63)
D [ x b ∣ x a ] = D [ x b ⋅ a ] = Σ b b − Σ b a Σ a a − 1 Σ a b (64) \mathbb{D}[x_{b}|x_a]=\mathbb{D}[x_{b\cdot a}]=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{64} D[xbxa]=D[xba]=ΣbbΣbaΣaa1Σab(64)
结 论 : p ( x b ∣ x a ) ∼ N [ μ b + Σ b a Σ a a − 1 ( x a − μ a ) , Σ b b − Σ b a Σ a a − 1 Σ a b ] (65) 结论:p(x_b|x_a)\sim N[\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a),\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}] \tag{65} p(xbxa)N[μb+ΣbaΣaa1(xaμa),ΣbbΣbaΣaa1Σab](65)
结 论 : p ( x a ∣ x b ) ∼ N [ μ a + Σ a b Σ b b − 1 ( x b − μ b ) , Σ a a − Σ a b Σ b b − 1 Σ b a ] (65) 结论:p(x_a|x_b)\sim N[\mu_{a}+\Sigma_{ab}\Sigma_{bb}^{-1}(x_b-\mu_b),\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba}] \tag{65} p(xaxb)N[μa+ΣabΣbb1(xbμb),ΣaaΣabΣbb1Σba](65)

5.已知边缘概率密度p(x)和条件概率密度p(y|x),求边缘概率p(y),条件概率p(x|y)

已 知 : p ( x ) = N ( x ∣ μ , Λ − 1 ) ; p ( y ∣ x ) = N ( A x + b , L − 1 ) ; 求 p ( y ) 和 p ( x ∣ y ) ? 已知:p(x)=N(x|\mu,\Lambda^{-1});p(y|x)=N(Ax+b,L^{-1});求p(y)和p(x|y)? p(x)=N(xμ,Λ1)p(yx)=N(Ax+b,L1);p(y)p(xy)
注 : 协 方 差 矩 阵 的 逆 表 示 精 度 矩 阵 Λ − 1 ; 变 量 Y 与 X 服 从 线 性 关 系 Y = A x + b + ϵ ; 噪 声 ϵ 独 立 于 X , ϵ ∼ N ( 0 , L − 1 ) 注:协方差矩阵的逆表示精度矩阵\Lambda^{-1};变量Y与X服从线性关系Y=Ax+b+\epsilon;噪声\epsilon独立于X,\epsilon \sim N(0,L^{-1}) Λ1;YX线Y=Ax+b+ϵ;ϵX,ϵN(0,L1)

5.1求边缘概率p(y)

E [ Y ] = E [ A x + b + ϵ ] = A E [ X ] + b + 0 = A μ + b (66) \mathbb{E}[Y]=\mathbb{E}[Ax+b+\epsilon]=A\mathbb{E}[X]+b+0=A\mu+b \tag{66} E[Y]=E[Ax+b+ϵ]=AE[X]+b+0=Aμ+b(66)
D [ Y ] = D [ A x + b + ϵ ] = A D [ X ] A T + 0 + L − 1 = A Λ − 1 A T + L − 1 (66) \mathbb{D}[Y]=\mathbb{D}[Ax+b+\epsilon]=A\mathbb{D}[X]A^T+0+L^{-1}=A\Lambda^{-1}A^T+L^{-1} \tag{66} D[Y]=D[Ax+b+ϵ]=AD[X]AT+0+L1=AΛ1AT+L1(66)
结 论 : p ( y ) ∼ N ( A μ + b , A Λ − 1 A T + L − 1 ) (67) 结论:p(y)\sim N(A\mu+b,A\Lambda^{-1}A^T+L^{-1})\tag{67} p(y)N(Aμ+b,AΛ1AT+L1)(67)

5.2求条件概率p(x|y)

到目前为止,我们已知p(x),p(y|x),p(y);如果我们知道联合概率p(x,y),那么就可以直接用4中的结论直接求p(x|y);

5.2.1构造Z

令 z = ( x y ) ; x ∼ N ( μ , Λ − 1 ) ; y ∼ N ( A μ + b , A Λ − 1 A T + L − 1 ) (68) 令z=\begin{pmatrix} x\\\\y \end{pmatrix};x \sim N(\mu,\Lambda^{-1});y \sim N(A\mu+b,A\Lambda^{-1}A^T+L^{-1})\tag{68} z=xy;xN(μ,Λ1);yN(Aμ+b,AΛ1AT+L1)(68)
z = ( x y ) ∼ N ( ( μ A μ + b ) , ( Λ − 1 Δ Δ T A Λ − 1 A T + L − 1 ) ) (69) z=\begin{pmatrix} x\\\\y \end{pmatrix}\sim N(\begin{pmatrix} \mu\\\\A\mu+b \end{pmatrix},\begin{pmatrix} \Lambda^{-1}&\Delta\\\\\Delta^T&A\Lambda^{-1}A^T+L^{-1} \end{pmatrix})\tag{69} z=xyN(μAμ+b,Λ1ΔTΔAΛ1AT+L1)(69)
注 : Δ 为 关 于 x , y 的 协 方 差 , 我 们 可 以 用 协 方 差 定 义 来 求 解 Δ : 注:\Delta为关于x,y的协方差,我们可以用协方差定义来求解\Delta: Δx,yΔ:
Δ = C o v ( x , y ) = E [ ( x − E [ X ] ) ( y − E [ Y ] ) T ] \Delta=Cov(x,y)=E[(x-E[X])(y-E[Y])^T] Δ=Cov(x,y)=E[(xE[X])(yE[Y])T]
= E [ ( x − μ ) ( [ A x + b + ϵ − A μ − b ) T ] =E[(x-\mu)([Ax+b+\epsilon-A\mu-b)^T] =E[(xμ)([Ax+b+ϵAμb)T]
= E [ ( x − μ ) [ A ( x − μ ) + ϵ ] T ] =E[(x-\mu)[A(x-\mu)+\epsilon]^T] =E[(xμ)[A(xμ)+ϵ]T]
= E [ ( x − μ ) ( x − μ ) T A T + ( x − μ ) ϵ T ] =E[(x-\mu)(x-\mu)^TA^T+(x-\mu)\epsilon^T] =E[(xμ)(xμ)TAT+(xμ)ϵT]
= E [ ( x − μ ) ( x − μ ) T ] A T + E [ ( x − μ ) ϵ T ] ] =E[(x-\mu)(x-\mu)^T]A^T+E[(x-\mu)\epsilon^T]] =E[(xμ)(xμ)T]AT+E[(xμ)ϵT]]
注 : 由 于 x 独 立 于 ϵ , 故 E [ ( x − μ ) ϵ T ] = 0 注:由于x独立于\epsilon,故E[(x-\mu)\epsilon^T]=0 xϵ,E[(xμ)ϵT]=0
= E [ ( x − μ ) ( x − μ ) T ] A T =E[(x-\mu)(x-\mu)^T]A^T =E[(xμ)(xμ)T]AT
= D ( x ) A T =D(x)A^T =D(x)AT
= Λ − 1 A T =\Lambda^{-1}A^T =Λ1AT
结 论 : z = ( x y ) ∼ N ( ( μ A μ + b ) , ( Λ − 1 Λ − 1 A T A Λ − 1 A Λ − 1 A T + L − 1 ) ) (69) 结论:z=\begin{pmatrix} x\\\\y \end{pmatrix}\sim N(\begin{pmatrix} \mu\\\\A\mu+b \end{pmatrix},\begin{pmatrix} \Lambda^{-1}&\Lambda^{-1}A^T\\\\A\Lambda^{-1}&A\Lambda^{-1}A^T+L^{-1} \end{pmatrix})\tag{69} z=xyN(μAμ+b,Λ1AΛ1Λ1ATAΛ1AT+L1)(69)

5.2.2求解条件概率p(x|y);

结论65可得:
E ( x ∣ y ) = μ + Λ − 1 A T ( A Λ − 1 A T + L − 1 ) − 1 ( y − A μ − b ) (70) \mathbb{E}(x|y)=\mu+\Lambda^{-1}A^T(A\Lambda^{-1}A^T+L^{-1})^{-1}(y-A\mu-b) \tag{70} E(xy)=μ+Λ1AT(AΛ1AT+L1)1(yAμb)(70)
D ( x ∣ y ) = Λ − 1 − Λ − 1 A T ( A Λ − 1 A T + L − 1 ) − 1 A Λ − 1 (71) \mathbb{D}(x|y)=\Lambda^{-1}-\Lambda^{-1}A^T(A\Lambda^{-1}A^T+L^{-1})^{-1}A\Lambda^{-1} \tag{71} D(xy)=Λ1Λ1AT(AΛ1AT+L1)1AΛ1(71)

5.3结论

结 论 : p ( x ∣ y ) ∼ N [ μ + Λ − 1 A T ( A Λ − 1 A T + L − 1 ) − 1 ( y − A μ − b ) , Λ − 1 − Λ − 1 A T ( A Λ − 1 A T + L − 1 ) − 1 A Λ − 1 ] 结论:p(x|y) \sim N[\mu+\Lambda^{-1}A^T(A\Lambda^{-1}A^T+L^{-1})^{-1}(y-A\mu-b) ,\Lambda^{-1}-\Lambda^{-1}A^T(A\Lambda^{-1}A^T+L^{-1})^{-1}A\Lambda^{-1}] p(xy)N[μ+Λ1AT(AΛ1AT+L1)1(yAμb),Λ1Λ1AT(AΛ1AT+L1)1AΛ1]

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
高斯分布之间的KL散度公式可以表示为: KL(P||Q) = 1/2 * (tr(Σ2/Q) + (u-Q)^T * Q^(-1) * (u-Q) - k + ln(det(Q)/det(Σ))) 其中,P和Q分别表示两个高斯分布,u是均值向量,Σ和Q分别是协方差矩阵,k是维度。\[2\] #### 引用[.reference_title] - *1* [深度学习/机器学习入门基础数学知识整理(八):中心极限定理,一元和多元高斯分布](https://blog.csdn.net/xbinworld/article/details/104303216)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [两个高斯分布之间的KL散度](https://blog.csdn.net/qq_33552519/article/details/130561606)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [多变量高斯分布之间的KL散度(KL Divergence)](https://blog.csdn.net/wangpeng138375/article/details/78060753)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值