14-高斯分布基础知识

最新推荐文章于 2023-08-23 15:03:48 发布

取个名字真难呐

最新推荐文章于 2023-08-23 15:03:48 发布

阅读量1.4k

点赞数 4

分类专栏： pytorch

本文链接：https://blog.csdn.net/scar2016/article/details/116864390

版权

pytorch 专栏收录该内容

148 篇文章 26 订阅

订阅专栏

本文详细探讨了高斯分布参数的极大似然估计，包括求解μ和σ的估计值，并证明了μMLE是无偏估计。接着，分析了多变量高斯分布，定义了马氏距离，并展示了如何从联合概率密度求条件概率密度和边缘概率密度。最后，讨论了如何从已知边缘概率和条件概率密度求解新的边缘概率和条件概率。

摘要由CSDN通过智能技术生成

文章目录

1.高斯分布参数估计/样本数据定义
2.极大似然法求 $\mu_{MLE},\sigma^2_{MLE}$
3.多变量的高斯分布
- 3.1 多变量的高斯分布样本定义：
- 3.2马氏距离
4.已知联合概率密度p(x,y)，求条件概率密度p(x|y)和边缘概率密度p(x)
5.已知边缘概率密度p(x)和条件概率密度p(y|x)，求边缘概率p(y),条件概率p(x|y)

1.高斯分布参数估计/样本数据定义

定义数据样本 $D=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\},其中x_i\in \mathbb{R}^p,y_i\in \mathbb{R},其中x_i = 1,2,...,N$
$X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P} \tag 1$
其中 $x_i$ 是P维列向量，且 $x_i \sim N(\mu,\Sigma)$ ,我们可以看出 $\theta=N(\mu,\Sigma)$

2.极大似然法求 $\mu_{MLE},\sigma^2_{MLE}$

2.1 $L(\theta)表达式$

我们知道每一个单变量 $x_i$ 服从高斯分布，由高斯分布密度函数为：
$P(x_i|\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp^{(-\frac{(x-\mu)^2}{2\sigma^2})} \tag 2$
我们希望通过观察到的数据来计算参数 $\theta$ 的值，那么我们可以使用极大似然估计法求,
由于我们假设 $x_i是服从独立同分布的，所以可得如下：$
$\theta_{MLE}=argmax_{\theta} \log \prod_{i=1}^{N} p(x_i|\theta)=argmax_{\theta}\sum_{i=1}^{N} \log p(x_i|\theta) \tag3$
代入 $P(x_i|\theta)$ 可得：
$L(\theta)=argmax_{\theta}\sum_{i=1}^{N} \log [\frac{1}{\sqrt{2\pi}}]-\sum_{i=1}^{N}\log[\sigma]-\sum_{i=1}^{N}\frac{(x_i-\mu)^2}{2\sigma^2} \tag4$
为方便计算，我们令：①= $\sum_{i=1}^{N} \log [\frac{1}{\sqrt{2\pi}}]$ ;②= $\sum_{i=1}^{N}\log[\sigma]$ ;③= $\sum_{i=1}^{N}\frac{(x_i-\mu)^2}{2\sigma^2}$
那么 $L(\theta)=①-②-③$

2.2 极大似然法求 $\mu_{MLE}$

由极大似然法我们可以得到只需要将 $L(\theta)$ 对 $\mu$ 求偏导，并令其为零。
$\frac{\partial {L(\theta)}}{\partial \mu}=0 \tag5$
展开上式可得如下：
$\frac{\partial {L(\theta)}}{\partial \mu}=0-0-\sum_{i=1}^{N}\frac{2(x_i-\mu)}{2\sigma^2}(-1)=0 \tag6$
整理上式可得：
$\sum_{i=1}^{N}(x_i-\mu)=0 \tag7$
$\sum_{i=1}^{N}x_i=\sum_{i=1}^{N}\mu=N \mu \tag8$
$结论：\mu_{MLE}=\frac{\sum_{i=1}^{N}x_i}{N} \tag9$

2.3无偏估计 $\mu_{MLE}$

由概率知识可得，如果我们求得 $\mathbb{E}[\mu_{MLE}]=\mu;那么\mu_{MLE}就是无偏估计；$
$ $\mathbb{E}[\mu_{MLE}]=\mathbb{E}[\frac{\sum_{i=1}^{N}x_i}{N}]=\frac{1}{N}\mathbb{E}[\sum_{i=1}^{N}x_i]=\frac{1}{N}N\mu=\mu \tag{10}$

2.4 极大似然法求 $\sigma^2_{MLE}$

由极大似然法我们可以得到只需要将 $L(\theta)$ 对 $\sigma$ 求偏导，并令其为零。
$\frac{\partial {L(\theta)}}{\partial \sigma}=0 \tag{11}$
展开上式可得如下：
$\frac{\partial {L(\theta)}}{\partial \sigma}=0-\sum_{i=1}^{N}\frac{1}{\sigma}+\sum_{i=1}^{N}(x_i-\mu)^2\sigma^{-3}\tag{12}$
整理上式可得：
$结论：\sigma^2_{MLE}=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu_{MLE})^2 \tag{13}$

2.5 有偏估计 $\sigma^2_{MLE}$

由极大似然法可得：
$\sigma^2_{MLE}=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu_{MLE})^2=\frac{1}{N}\sum_{i=1}^{N}x_i^2+\frac{1}{N}\sum_{i=1}^{N}\mu_{MLE}^2-\frac{1}{N}\sum_{i=1}^{N}2x_i\mu_{MLE} \tag{14}$
由于 $\mu_{MLE}=\frac{\sum_{i=1}^{N}x_i}{N}$ 所以可得如下：
$\sigma^2_{MLE}=\frac{1}{N}\sum_{i=1}^{N}x_i^2+\frac{N}{N}\mu_{MLE}^2-2\mu_{MLE} ^2=\frac{1}{N}\sum_{i=1}^{N}x_i^2-\mu_{MLE} ^2\tag{15}$
由期望方差关系公式可得：
$\mathbb{E}[X^2]-[\mathbb{E}(X)]^2=\mathbb{D}(X) \tag{16}$
$\mathbb{E}[\frac{1}{N}\sum_{i=1}^{N}x_i^2]=\frac{1}{N}\sum_{i=1}^{N}\mathbb{E}[x_i^2]=\frac{1}{N}\sum_{i=1}^{N}([\mathbb{E}{(x_i)]}^2+D(x_i))=\frac{1}{N}\sum_{i=1}^{N}[\mu^2+\sigma^2]=\mu^2+\sigma^2 \tag{17}$
$\mathbb{E}[\mu_{MLE} ^2]=(\mathbb{E}(\mu_{MLE}))^2+D(\mu_{MLE})=\mu^2+D(\frac{\sum_{i=1}^{N}x_i}{N})=\mu^2+\frac{1}{N^2}\sum_{i=1}^{N}D(x_i)=\mu^2+\frac{1}{N}\sigma^2 \tag{18}$
$\mathbb{E}[\sigma^2_{MLE}]=\mu^2+\sigma^2-(\mu^2+\frac{1}{N}\sigma^2)=\frac{N-1}{N}\sigma^2 \tag{19}$
$故：\mathbb{E}[\sigma^2_{MLE}]≠\sigma^2 \tag{20}$
$结论：\sigma^2_{MLE}是有偏估计$
注：我们在求 $\sigma^2_{MLE}时，我们用的是\mu_{MLE}，而不是\mu,而\mu_{MLE}是我们通过样本数据来生成的$ ，那么它就一定会出现部分误差，并且用局部样本去估算整体样本时会偏小，无法完全覆盖整个样本。所以，我们在高斯正太分布中，利用极大似然估计求出来的 $\sigma^2_{MLE}$ 偏小。

3.多变量的高斯分布

3.1 多变量的高斯分布样本定义：

3.2马氏距离

对于多元高斯分布，我们认为马氏距离L(实数)为：
$L=(x-\mu)^T\Sigma^{-1}(x-\mu) \tag {24}$
由于 $\Sigma$ 为正定矩阵，故可以对其进行特征值分解：
$\Sigma=U\Lambda U^T;U^TU=UU^T=I；\Lambda=diag(\lambda_{i});i=1,2,...,N ;U=(u_1,u_2,...,u_p)\tag {25}$
$\Sigma=U\Lambda U^T=(u_1,u_2,...,u_p)\begin{pmatrix} \lambda_{1}&&&\\&\lambda_{2}&&\\&&\vdots&\\&&&\lambda_{p}\end{pmatrix}\begin{pmatrix} u_1^T\\u_2^T\\\vdots\\u_p^T \end{pmatrix}=\sum_{i=1}^{p}u_i \lambda_iu_i^T \tag {26}$
$\Sigma^{-1}=(U\Lambda U^T)^{-1}=U\Lambda^{-1}U^T=\sum_{i=1}^{p}u_i \frac{1}{\lambda_i}u_i^T \tag {27}$
我们将上式代入到马氏距离L上可得如下：
$L=(x-\mu)^T\Sigma^{-1}(x-\mu)=(x-\mu)^T\sum_{i=1}^{p}u_i \frac{1}{\lambda_i}u_i^T(x-\mu) \tag {28}$
$L=\frac{1}{\lambda_i}\sum_{i=1}^{p}[(x-\mu)^Tu_i ][u_i^T(x-\mu)] \tag {29}$
我们令 $y_i=\begin{pmatrix} y_1^T\\y_2^T\\\vdots\\y_N^T \end{pmatrix}=(x-\mu)^T u_i \tag {30}$
$L=\sum_{i=1}^{p}\frac{1}{\lambda_i}y_iy_i^T=\sum_{i=1}^{p}\frac{y_i^2}{\lambda_i} \tag {31}$
我们假设p=2 ,则 $=\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}；表示为一个椭圆$ 如果L取不同的值，我们就可以像等高线一样切除高斯三维的模型，截面形成一个椭圆形状。
$y_i=(x-\mu)^T u_i ；几何意义解释：$
$1.x先向中心偏移后得到的向量(x-\mu)^T; 2.向量(x-\mu)^T在u_i上的投影$
在这里插入图片描述

4.已知联合概率密度p(x,y)，求条件概率密度p(x|y)和边缘概率密度p(x)

4.1样本定义

多变量的高斯分布 $X\sim N(\mu,\Sigma)$ ,其概率密度函数如下：
$P(x_i|\theta)=\frac{1}{{(2\pi)^{\frac{p}{2}}}|\Sigma|^\frac{1}{2}}exp^{(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))} \tag {32}$
$X=(x_1,x_2,...,x_N)^T= \begin{pmatrix} x_1^T\\x_2^T\\\vdots\\x_N^T \end{pmatrix}_{P\times 1}=\begin{pmatrix} x_{11}&x_{12}&...&x_{1p}\\x_{21}&x_{22}&...&x_{2p}\\\vdots&\vdots&\vdots&\vdots\\x_{N1}&x_{N2}&...&x_{Np}\end{pmatrix}_{N \times P} \tag {33}$
$\Sigma=\begin{pmatrix} \sigma_{11}&\sigma_{12}&...&\sigma_{1p}\\\sigma_{21}&\sigma_{22}&...&\sigma_{2p}\\\vdots&\vdots&\vdots&\vdots\\\sigma_{p1}&\sigma_{p2}&...&\sigma_{pp}\end{pmatrix}_{p \times p} ;\mu=\begin{pmatrix} \mu_1^T\\\mu_2^T\\\vdots\\\mu_p^T \end{pmatrix}_{P\times 1}\tag {34}$
注：我们一般默认为 $\Sigma$ 为半正定矩阵，这里为了方便计算，我们假设 $\Sigma$ 为正定矩阵。
目的：已知联合概率密度求条件概率密度和边缘概率密度，可描述为已知 $x_a为m维度，x_b为n维度；$ ：
$\begin{pmatrix} x_a\\\\x_b \end{pmatrix};m+n=p;\mu= \begin{pmatrix} \mu_a\\\\\mu_b \end{pmatrix};\Sigma= \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix};\Sigma_{ab}=\Sigma_{ba}^T \tag {35}$
$求边缘概率p(x_a),条件概率p(x_b|x_a)$

4.2 引入相关公式-线性组合

$已知:X服从高斯分布X\sim N(\mu,\Sigma),Y与X满足线性关系，Y=AX+B$
$结论：Y服从高斯分布Y\sim N(A\mu+B,A\Sigma A^T)$
证明：
$E[Y]=E[AX+B]=AE[X]+B=A\mu+B$
$D[Y]=D[AX+B]=D[AX]+0=AD[X]A^T=A\Sigma A^T$

4.3 独立性证明

$X若服从高斯分布X\sim N(\mu,\Sigma),则MX \bot NX\Longleftrightarrow M\Sigma N^T=0\tag {36}$
证明：
$\because X\sim N(\mu,\Sigma)$
$\therefore MX\sim N(M\mu,M\Sigma M^T);NX\sim N(N\mu,N\Sigma N^T)$

由定义可得：
$C O V (M X, N X)$

$=E[(MX-M\mu)(NX-N\mu)^T]$

$=E[(M(X-\mu)(X-\mu)^TN^T]$

$=M\cdot E[((X-\mu)(X-\mu)^T]\cdot N^T$

$=M\Sigma N^T$

$\because X\sim N(\mu,\Sigma),MX \bot NX$

$\therefore MX和NX相互独立$

$\therefore COV(MX,NX)=0$

$\because COV(MX,NX)=M\Sigma N^T$

$\therefore M\Sigma N^T=0$

我们定义 $\Sigma= \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix},X_{b\cdot a}=X_b-\Sigma_{ba}\Sigma_{aa}^{-1}X_a;我们用矩阵形式表达X_{b\cdot a}，X_a$
$X_{b\cdot a}=(-\Sigma_{ba}\Sigma_{aa}^{-1},I) \begin{pmatrix} x_a\\\\x_b \end{pmatrix};X_a=(I,0) \begin{pmatrix} x_a\\\\x_b \end{pmatrix};\tag{37}$
$M=(-\Sigma_{ba}\Sigma_{aa}^{-1},I);X= \begin{pmatrix} x_a\\\\x_b \end{pmatrix};N=(I,0) \tag{38}$
$\because M\Sigma N^T=(-\Sigma_{ba}\Sigma_{aa}^{-1},I) \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix} \begin{pmatrix} I\\\\0 \end{pmatrix}=(0,-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}+\Sigma_{bb})\begin{pmatrix} I\\\\0 \end{pmatrix}=0$
$\therefore MX \bot NX$
$\therefore X_{b\cdot a} \bot X_a$
$结论：X_{b\cdot a}|X_a=X_{b\cdot a} \tag{39}$
$我们定义:X_b=X_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}X_a$

$X_{b}|X_a=X_{b\cdot a}|X_a+\Sigma_{ba}\Sigma_{aa}^{-1}X_a|X_a=X_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}X_a=X_b \tag{40}$
$结论：X_{b}|X_a \bot X_b \tag{41}$
$\mathbb{E}[X_{b}|X_a]=\mathbb{E}[X_{b}] \tag{42}$
$\mathbb{D}[X_{b}|X_a]=\mathbb{D}[X_{b}] \tag{42}$

4.4边缘概率 $P(x_a)$

由于我们已知: $\begin{pmatrix} x_a\\\\x_b \end{pmatrix}$ ;我们构造变量 $X_a$ 满足如下公式：
$X_a=(I_m,0) \begin{pmatrix} x_a\\\\x_b \end{pmatrix}\tag{43}$
我们可以令
$A=(I_m,0);X=\begin{pmatrix} x_a\\\\x_b \end{pmatrix}\tag{44}$
$则：X_a=AX$
$已知:X服从高斯分布X\sim N(\mu,\Sigma),Y与X满足线性关系，Y=AX+B$
$结论：Y服从高斯分布Y\sim N(A\mu+B,A\Sigma A^T)$
$\mathbb{E}[X_a]=A\mathbb{E}[X];已知：\mathbb{E}[X]=\begin{pmatrix} \mu_a\\\mu_b \end{pmatrix}\tag{45}$
$\mathbb{E}[X_a]=(I_m,0)\begin{pmatrix} \mu_a\\\mu_b \end{pmatrix}=\mu_a \tag{46}$
$\mathbb{D}(X_a)=A\mathbb{D}[X]A^T;已知：\mathbb{D}[X]=\Sigma= \begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix}\tag{47}$
$\mathbb{D}(X_a)=A\Sigma A^T= (I_m,0)\begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix}\begin{pmatrix} I_m\\0 \end{pmatrix}=\Sigma_{aa}\tag{48}$
$结论：X_a\sim N(\mu_a,\Sigma_{aa})$

4.5条件概率密度 $p(x_b|x_a)$

这里我们运用构造法来求，我们需要引入如下构造公式：
$x_{b \cdot a}=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_a \tag{49}$
$\mu_{b \cdot a}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a \tag{50}$
$\Sigma_{bb \cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{51}$
我们可以将 $X_{b \cdot a}$ 用矩阵形式表示：
$x_{b \cdot a}=(-\Sigma_{ba}\Sigma_{aa}^{-1},I_n)\begin{pmatrix} x_a\\\\x_b \end{pmatrix}\tag{52}$
$令:A_1=(-\Sigma_{ba}\Sigma_{aa}^{-1},I_n);X=\begin{pmatrix} x_a\\\\x_b \end{pmatrix};Y=x_{b \cdot a} \tag{53}$
$\mathbb{E}[Y]=A_1\mathbb{E}[X]=(-\Sigma_{ba}\Sigma_{aa}^{-1},I_n)\begin{pmatrix} \mu_a\\\mu_b \end{pmatrix}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a=\mu_{b \cdot a}\tag{54}$
$\mathbb{D}[Y]=A_1\mathbb{D}[X]A_1^T=(-\Sigma_{ba}\Sigma_{aa}^{-1},I_n)\begin{pmatrix} \Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ab}&\Sigma_{bb} \end{pmatrix}\begin{pmatrix} -\Sigma_{ba}\Sigma_{aa}^{-1}\\\\I_n \end{pmatrix}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}=\Sigma_{bb \cdot a} \tag{55}$
$Y=x_{b \cdot a}\sim N(\mu_{b \cdot a},\Sigma_{bb \cdot a})\tag{56}$
由于我们定义了： $x_{b \cdot a}=x_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}x_a;(49公式)；独立性：X_{b\cdot a}|X_a=X_{b\cdot a}$
$条件性：x_{b \cdot a}|x_a=x_{b}|x_a-\Sigma_{ba}\Sigma_{aa}^{-1}x_a|x_a;\tag{57}$
$x_{b\cdot a}=x_{b}|x_a-\Sigma_{ba}\Sigma_{aa}^{-1}x_a;\tag{58}$
$\mathbb{E}[x_{b\cdot a}]=\mathbb{E}[x_{b}|x_a]-\Sigma_{ba}\Sigma_{aa}^{-1}x_a \tag{59}$
$x_a是已知量;可以将\Sigma_{ba}\Sigma_{aa}^{-1}x_a看作常量对待$
$\mathbb{E}[x_{b}|x_a]=\mathbb{E}[x_{b\cdot a}]+\Sigma_{ba}\Sigma_{aa}^{-1}x_a \tag{60}$
$\mathbb{E}[x_{b\cdot a}]=\mu_{b \cdot a}=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a;\tag{61}$
$\mathbb{E}[x_{b}|x_a]=\mu_{b}-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a+\Sigma_{ba}\Sigma_{aa}^{-1}x_a\tag{62}$
$\mathbb{E}[x_{b}|x_a]=\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a)\tag{63}$
$\mathbb{D}[x_{b}|x_a]=\mathbb{D}[x_{b\cdot a}]=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab} \tag{64}$
$结论：p(x_b|x_a)\sim N[\mu_{b}+\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a),\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}] \tag{65}$
$结论：p(x_a|x_b)\sim N[\mu_{a}+\Sigma_{ab}\Sigma_{bb}^{-1}(x_b-\mu_b),\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba}] \tag{65}$

5.已知边缘概率密度p(x)和条件概率密度p(y|x)，求边缘概率p(y),条件概率p(x|y)

$已知：p(x)=N(x|\mu,\Lambda^{-1})；p(y|x)=N(Ax+b,L^{-1});求p(y)和p(x|y)？$
$注：协方差矩阵的逆表示精度矩阵\Lambda^{-1};变量Y与X服从线性关系Y=Ax+b+\epsilon;噪声\epsilon独立于X,\epsilon \sim N(0,L^{-1})$

5.1求边缘概率p(y)

$\mathbb{E}[Y]=\mathbb{E}[Ax+b+\epsilon]=A\mathbb{E}[X]+b+0=A\mu+b \tag{66}$
$\mathbb{D}[Y]=\mathbb{D}[Ax+b+\epsilon]=A\mathbb{D}[X]A^T+0+L^{-1}=A\Lambda^{-1}A^T+L^{-1} \tag{66}$
$结论：p(y)\sim N(A\mu+b,A\Lambda^{-1}A^T+L^{-1})\tag{67}$

5.2求条件概率p(x|y)

到目前为止，我们已知p(x),p(y|x),p(y);如果我们知道联合概率p(x,y)，那么就可以直接用4中的结论直接求p(x|y)；

5.2.1构造Z

$令z=\begin{pmatrix} x\\\\y \end{pmatrix};x \sim N(\mu,\Lambda^{-1});y \sim N(A\mu+b,A\Lambda^{-1}A^T+L^{-1})\tag{68}$
$z=\begin{pmatrix} x\\\\y \end{pmatrix}\sim N(\begin{pmatrix} \mu\\\\A\mu+b \end{pmatrix},\begin{pmatrix} \Lambda^{-1}&\Delta\\\\\Delta^T&A\Lambda^{-1}A^T+L^{-1} \end{pmatrix})\tag{69}$
$注：\Delta为关于x,y的协方差，我们可以用协方差定义来求解\Delta:$
$\Delta=Cov(x,y)=E[(x-E[X])(y-E[Y])^T]$
$=E[(x-\mu)([Ax+b+\epsilon-A\mu-b)^T]$
$=E[(x-\mu)[A(x-\mu)+\epsilon]^T]$
$=E[(x-\mu)(x-\mu)^TA^T+(x-\mu)\epsilon^T]$
$=E[(x-\mu)(x-\mu)^T]A^T+E[(x-\mu)\epsilon^T]]$
$注：由于x独立于\epsilon,故E[(x-\mu)\epsilon^T]=0$
$=E[(x-\mu)(x-\mu)^T]A^T$
$D(x)A^T$
$=\Lambda^{-1}A^T$
$结论：z=\begin{pmatrix} x\\\\y \end{pmatrix}\sim N(\begin{pmatrix} \mu\\\\A\mu+b \end{pmatrix},\begin{pmatrix} \Lambda^{-1}&\Lambda^{-1}A^T\\\\A\Lambda^{-1}&A\Lambda^{-1}A^T+L^{-1} \end{pmatrix})\tag{69}$

5.2.2求解条件概率p(x|y);

由结论65可得：
$\mathbb{E}(x|y)=\mu+\Lambda^{-1}A^T(A\Lambda^{-1}A^T+L^{-1})^{-1}(y-A\mu-b) \tag{70}$
$\mathbb{D}(x|y)=\Lambda^{-1}-\Lambda^{-1}A^T(A\Lambda^{-1}A^T+L^{-1})^{-1}A\Lambda^{-1} \tag{71}$

5.3结论

$\sim N[\mu+\Lambda^{-1}A^T(A\Lambda^{-1}A^T+L^{-1})^{-1}(y-A\mu-b) ,\Lambda^{-1}-\Lambda^{-1}A^T(A\Lambda^{-1}A^T+L^{-1})^{-1}A\Lambda^{-1}]$

取个名字真难呐

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
14-高斯分布基础知识

文章目录1.高斯分布参数估计/样本数据定义2.极大似然法求μMLE,σMLE2\mu_{MLE},\sigma^2_{MLE}μMLE,σMLE22.1 L(θ)表达式L(\theta)表达式L(θ)表达式2.2 极大似然法求μMLE\mu_{MLE}μMLE2.3无偏估计μMLE\mu_{MLE}μMLE2.4 极大似然法求σMLE2\sigma^2_{MLE}σMLE22.5 有偏估计σMLE2\sigma^2_{MLE}σMLE21.高斯分布参数估计/样本数据定义定义数据样本D={(x
复制链接

扫一扫