联合高斯分布与条件高斯分布的相关性质（贝叶斯线性模型）

最新推荐文章于 2024-07-15 23:22:45 发布

Turbo-shengsong

最新推荐文章于 2024-07-15 23:22:45 发布

阅读量7.5k

点赞数 21

分类专栏：信息与通信数学基础文章标签：矩阵概率论

本文链接：https://blog.csdn.net/weixin_43413559/article/details/124306775

版权

信息与通信同时被 2 个专栏收录

22 篇文章

订阅专栏

数学基础

20 篇文章

订阅专栏

文章目录

贝叶斯一般线性模型(Bayesian general linear model)

贝叶斯线性模型可以表征为：
$\boldsymbol y = \boldsymbol {H x} + \boldsymbol w \tag{1}$

其中 $\boldsymbol{y} \in \mathbb{R}^{N}$ ， $\boldsymbol{H} \in \mathbb{R}^{N \times p}$ 已知， $\boldsymbol x \in \mathbb{R}^{p}$ 且 $\boldsymbol x \sim \mathcal{N}(\boldsymbol{ \mu_x}, \boldsymbol{C_x})$ ， $\boldsymbol{w} \in \mathbb{R}^N$ 是噪声向量， $\boldsymbol w \sim \mathcal{N}(\boldsymbol 0, \boldsymbol {C_w})$ ， $\boldsymbol x$ 与 $\boldsymbol{w}$ 相互独立。与传统的线性模型相比，贝叶斯线性模型将 $\boldsymbol{x}$ 看作是一个随机向量。

我们考虑 $\boldsymbol{x,y}$ 的联合概率分布，令 $\boldsymbol{z} = [\boldsymbol{y}^T,\boldsymbol{x}^T]^T$ ，则
$\begin{aligned} \boldsymbol{z}&=\left[ \begin{array}{c} \boldsymbol{Hx}+\boldsymbol{w}\\ \boldsymbol{x}\\ \end{array} \right] \,\, \\ &= \left[ \begin{matrix} \boldsymbol{H}& \boldsymbol{I}_N\\ \boldsymbol{I}_p& \boldsymbol{0}\\ \end{matrix} \right] \left[ \begin{array}{c} \boldsymbol{x}\\ \boldsymbol{w}\\ \end{array} \right] \\ & = \boldsymbol{A} \left[ \begin{array}{c} \boldsymbol{x}\\ \boldsymbol{w}\\ \end{array} \right] \tag{2} \end{aligned}$

因为 $\boldsymbol{x}$ 与 $\boldsymbol{w}$ 都服从高斯分布且各自独立，所以 $[\boldsymbol{x}^T,\boldsymbol{w}^T]^T$ 的联合分布也是高斯，因为 $\boldsymbol{z}$ 是由 $[\boldsymbol{x}^T,\boldsymbol{w}^T]^T$ 经过线性变换(矩阵 $\boldsymbol{A}$ )得到的，所以 $\boldsymbol{z}$ 也服从高斯分布。关于高斯线性变换的性质，我们利用矩母函数，做出如下解释和证明。

高斯随机向量的线性变换仍为高斯：解释与证明
给定随机变量 $\sim f_{{X}}(x)$ ，其矩母函数为：
$\begin{aligned} \phi_{X}(w) &= \int f_{{X}}(x) e^{jwx} \text{d}x \\ & = \mathbb{E} \left [ e^{jwx} \right] \end{aligned}$

我们假设
$\boldsymbol X \in \mathbb{R}^{N}, \boldsymbol X \sim \mathcal{N}(\boldsymbol \mu, \boldsymbol \Sigma), \boldsymbol Y = \boldsymbol {AX} \in \mathbb{R}^{m}, \boldsymbol A \in \mathbb{R}^{m \times n}$

由于矩阵 $\boldsymbol{A}$ 不是方阵，无法从概率密度函数的角度分析 $\boldsymbol{Y}$ 的分布，我们借助矩母函数：
$\begin{aligned} \phi_{\boldsymbol Y}(\boldsymbol w) &= \mathbb{E} \left [ \exp(j \boldsymbol w^T \boldsymbol y) \right ] \\ & = \mathbb{E} \left [ \exp(j \boldsymbol w^T \boldsymbol {Ax}) \right ] \\ & = \mathbb{E} \left [ \exp(j (\boldsymbol A^T \boldsymbol w)^T \boldsymbol {x}) \right ] \\ & = \phi_{\boldsymbol X}(\boldsymbol A^T \boldsymbol w) \\ & = \exp(j \boldsymbol w^T \boldsymbol A \boldsymbol \mu - \frac{1}{2} \boldsymbol w^T \boldsymbol {A \Sigma A}^T \boldsymbol w) \\ \Rightarrow \boldsymbol Y &\sim \mathcal{N}(\boldsymbol {A\mu},\boldsymbol {A \Sigma A}^T) \end{aligned} \tag{3}$

因此高斯分布的线性变换仍然是高斯的。反过来，我们可以通过构造矩阵 $\boldsymbol{A}$ 来求解边际概率，比如要求 $x_1$ 的边际概率，只需把矩阵 $\boldsymbol{A}$ 构造为第一个对角元素为1，其他元素都为0的矩阵即可。可以表述为：如果联合分布是高斯分布，则边际分布一定是高斯分布。但是反过来不一定成立：如果边际分布是高斯分布，则联合分布不一定是高斯分布，反例如下：构造
$f_{X_1,X_2}(x_1,x_2) = \frac{1}{2\pi} \exp \left( -\frac{x_1^2 + x_2^2}{2} \right) + K(x_1,x_2)$

其中
$\int K(x_1,x_2) \text{d} x_1 = \int K(x_1,x_2) \text{d} x_2 = 0$

那么关于 $x_1,x_2$ 的边际分布是高斯分布，但是不满足高斯分布的一种构造方式为：
$f_{X_1,X_2}(x_1,x_2) = \frac{1}{2\pi} \exp \left( -\frac{x_1^2 + x_2^2}{2} \right)(1 + \sin x_1\sin x_2)$

可以看出，构造的例子满足边际概率为高斯分布，但是不满足联合概率为高斯。

贝叶斯线性模型下的联合高斯分布和边际分布

延续式(1)和式(2)，因为独立性，不难得到
$\left[ \begin{array}{c} \boldsymbol{x}\\ \boldsymbol{w}\\ \end{array} \right] \sim \mathcal{N} \left( \left[ \begin{array}{c} \boldsymbol{\mu }\\ \boldsymbol{0}\\ \end{array} \right] ,\left[ \begin{matrix} \boldsymbol{C}_{\boldsymbol{x}}& \boldsymbol 0\\ \boldsymbol 0& \boldsymbol{C}_{\boldsymbol{w}}\\ \end{matrix} \right] \right) \tag{5}$

再考虑线性变换，根据式(4)，可以得到：
$\boldsymbol{z} = \left[ \begin{matrix} \boldsymbol{H}& \boldsymbol{I}_N\\ \boldsymbol{I}_p& \boldsymbol{0}\\ \end{matrix} \right] \left[ \begin{array}{c} \boldsymbol{x}\\ \boldsymbol{w}\\ \end{array} \right] \sim \mathcal{N} \left( \left[ \begin{matrix} \boldsymbol{H}& \boldsymbol{I}_N\\ \boldsymbol{I}_p& \boldsymbol{0}\\ \end{matrix} \right] \left[ \begin{array}{c} \boldsymbol{\mu }\\ \boldsymbol{0}\\ \end{array} \right] ,\left[ \begin{matrix} \boldsymbol{H}& \boldsymbol{I}_N\\ \boldsymbol{I}_p& \boldsymbol{0}\\ \end{matrix} \right] \left[ \begin{matrix} \boldsymbol{C}_{\boldsymbol{x}}& \boldsymbol 0\\ \boldsymbol 0& \boldsymbol{C}_{\boldsymbol{w}}\\ \end{matrix} \right] \left[ \begin{matrix} \boldsymbol{H}^T& \boldsymbol{I}_p\\ \boldsymbol{I}_N& \boldsymbol{0}\\ \end{matrix} \right] \right)$

即
$\left[ \begin{array}{c} \boldsymbol{y}\\ \boldsymbol{x}\\ \end{array} \right] \sim \mathcal{N} \left( \left[ \begin{matrix} \boldsymbol{H}& \boldsymbol{I}_N\\ \boldsymbol{I}_p& \boldsymbol{0}\\ \end{matrix} \right] \left[ \begin{array}{c} \boldsymbol{\mu }\\ \boldsymbol{0}\\ \end{array} \right] ,\left[ \begin{matrix} \boldsymbol{H}& \boldsymbol{I}_N\\ \boldsymbol{I}_p& \boldsymbol{0}\\ \end{matrix} \right] \left[ \begin{matrix} \boldsymbol{C}_{\boldsymbol{x}}& \boldsymbol 0\\ \boldsymbol 0& \boldsymbol{C}_{\boldsymbol{w}}\\ \end{matrix} \right] \left[ \begin{matrix} \boldsymbol{H}^T& \boldsymbol{I}_p\\ \boldsymbol{I}_N& \boldsymbol{0}\\ \end{matrix} \right] \right) \tag{6}$

式(6)也就是 $\boldsymbol{x,y}$ 的联合概率分布，化简为
$\left[ \begin{array}{c} \boldsymbol{x}\\ \boldsymbol{y}\\ \end{array} \right] \sim \mathcal{N} \left( \left[ \begin{array}{c} \boldsymbol{\mu }\\ \boldsymbol{H\mu }\\ \end{array} \right] ,\left[ \begin{matrix} \boldsymbol{C}_{\boldsymbol{x}}& \boldsymbol{C}_{\boldsymbol{x}}\boldsymbol{H}^T\\ \boldsymbol{HC}_{\boldsymbol{x}}& \boldsymbol{HC}_{\boldsymbol{x}}\boldsymbol{H}^T+\boldsymbol{C}_{\boldsymbol{w}}\\ \end{matrix} \right] \right) \tag{7}$

基于(7)，构造线性变换
$\left[ \begin{matrix} \boldsymbol{0}& \boldsymbol{0}\\ \boldsymbol{0}& \boldsymbol{I}\\ \end{matrix} \right] \left[ \begin{array}{c} \boldsymbol{x}\\ \boldsymbol{y}\\ \end{array} \right]$

可以得到关于 $\boldsymbol{y}$ 的边际概率：
$\boldsymbol y \sim \mathcal{N}(\boldsymbol{H \mu},\boldsymbol{HC}_{\boldsymbol{x}}\boldsymbol{H}^T+\boldsymbol{C}_{\boldsymbol{w}}) \tag{8}$

贝叶斯线性模型下的条件高斯分布

为了方便描述，我们令
$\left[ \begin{array}{c} \boldsymbol{x}\\ \boldsymbol{y}\\ \end{array} \right] \sim \mathcal{N} \left( \left[ \begin{array}{c} \mathbb{E} [\boldsymbol{x}]\\ \mathbb{E} [\boldsymbol{y}]\\ \end{array} \right] ,\boldsymbol{C} \right)$

那么条件概率 $p(\boldsymbol{y}|\boldsymbol{x})$ 可以表示为：
$\begin{aligned} p(\boldsymbol{y}|\boldsymbol{x}) & = \frac{p(\boldsymbol{x},\boldsymbol y)}{p(\boldsymbol x)} \\ & = \frac{\frac{1}{(2 \pi)^{{\frac{N+p}{2}}} \text{det}^{\frac{1}{2}} (\boldsymbol C)} \exp \left [ -\frac{1}{2} \left[ \begin{array}{c} \boldsymbol{x}-\mathbb{E} [\boldsymbol{x}]\\ \boldsymbol{y}-\mathbb{E} [\boldsymbol{y}]\\ \end{array} \right] ^T\boldsymbol{C}^{-1}\left[ \begin{array}{c} \boldsymbol{x}-\mathbb{E} [\boldsymbol{x}]\\ \boldsymbol{y}-\mathbb{E} [\boldsymbol{y}]\\ \end{array} \right] \right]} { \frac{1}{(2 \pi)^{\frac{p}{2}} \text{det}^{\frac{1}{2}} (\boldsymbol C_x)} \exp \left[ -\frac{1}{2} (\boldsymbol{x}-\mathbb{E} [\boldsymbol{x})^T \boldsymbol C^{-1}_x (\boldsymbol{x}-\mathbb{E} [\boldsymbol{x}) \right ] } \end{aligned}$

将协方差矩阵构造为分块矩阵的形式(对应到式(7))：
$\boldsymbol C = \left[ \begin{matrix} \boldsymbol{C}_{\boldsymbol{x}}& \boldsymbol{C}_{\boldsymbol{xy}}\\ \boldsymbol{C}_{\boldsymbol{yx}}& \boldsymbol{C}_{\boldsymbol{y}}\\ \end{matrix} \right]$

那么依据分块矩阵的行列式分解公式：
$\text{det} \left ( \left[ \begin{matrix} \boldsymbol{A}_{11}& \boldsymbol{A}_{12}\\ \boldsymbol{A}_{21}& \boldsymbol{A}_{22}\\ \end{matrix} \right] \right) = \text{det} (\boldsymbol{A}_{11}) \text{det} (\boldsymbol{A}_{22} - \boldsymbol{A}_{21}\boldsymbol{A}_{11}^{-1} \boldsymbol{A}_{12})$

因此
$\begin{aligned} \text{det}(\boldsymbol C) &= \text{det}(\boldsymbol {C}_{\boldsymbol x}) \text{det} (\boldsymbol C_{\boldsymbol y} - \boldsymbol{C}_{\boldsymbol{yx}} \boldsymbol {C}_{\boldsymbol x}^{-1} \boldsymbol{C}_{\boldsymbol{xy}} ) \\ \Rightarrow \frac{\text{det}(\boldsymbol C)}{\text{det}(\boldsymbol {C}_{\boldsymbol x})} &= \text{det} (\boldsymbol C_{\boldsymbol y} - \boldsymbol{C}_{\boldsymbol{yx}} \boldsymbol {C}_{\boldsymbol x}^{-1} \boldsymbol{C}_{\boldsymbol{xy}} ) \end{aligned}$

因此，我们可以进一步把 $p(\boldsymbol{y}|\boldsymbol{x})$ 表示为：
$p(\boldsymbol{y}|\boldsymbol{x}) = \frac{1} {(2\pi)^{\frac{N}{2}} \text{det}^{\frac{1}{2}} (\boldsymbol C_{\boldsymbol y} - \boldsymbol{C}_{\boldsymbol{yx}} \boldsymbol {C}_{\boldsymbol x}^{-1} \boldsymbol{C}_{\boldsymbol{xy}})} \exp \left( -\frac{1}{2} Q \right)$

其中
$\left[ \begin{array}{c} \boldsymbol{x}-\mathbb{E} [\boldsymbol{x}]\\ \boldsymbol{y}-\mathbb{E} [\boldsymbol{y}]\\ \end{array} \right] ^T\boldsymbol{C}^{-1}\left[ \begin{array}{c} \boldsymbol{x}-\mathbb{E} [\boldsymbol{x}]\\ \boldsymbol{y}-\mathbb{E} [\boldsymbol{y}]\\ \end{array} \right] - (\boldsymbol{x}-\mathbb{E} [\boldsymbol{x}])^T \boldsymbol C^{-1}_x (\boldsymbol{x}-\mathbb{E} [\boldsymbol{x}])$

对于分块对称矩阵 $\boldsymbol{C}$ ，其求逆公式为：
$\left[ \begin{matrix} \boldsymbol{A}_{11}& \boldsymbol{A}_{12}\\ \boldsymbol{A}_{21}& \boldsymbol{A}_{22}\\ \end{matrix} \right] ^{-1}=\left[ \begin{matrix} \left( \boldsymbol{A}_{11}-\boldsymbol{A}_{12}\boldsymbol{A}_{22}^{-1}\boldsymbol{A}_{21} \right) ^{-1}& -\boldsymbol{A}_{11}^{-1}\boldsymbol{A}_{12}\left( \boldsymbol{A}_{22}-\boldsymbol{A}_{21}\boldsymbol{A}_{11}^{-1}\boldsymbol{A}_{12} \right) ^{-1}\\ -\left( \boldsymbol{A}_{22}-\boldsymbol{A}_{21}\boldsymbol{A}_{11}^{-1}\boldsymbol{A}_{12} \right) ^{-1}\boldsymbol{A}_{21}\boldsymbol{A}_{11}^{-1}& \left( \boldsymbol{A}_{22}-\boldsymbol{A}_{21}\boldsymbol{A}_{11}^{-1}\boldsymbol{A}_{12} \right) ^{-1}\\ \end{matrix} \right]$

根据矩阵求逆引理
$\left( \boldsymbol{A}_{11}-\boldsymbol{A}_{12}\boldsymbol{A}_{22}^{-1}\boldsymbol{A}_{21} \right) ^{-1}\,\,=\,\,\boldsymbol{A}_{11}^{-1}\,\,+\,\,\boldsymbol{A}_{11}^{-1}\boldsymbol{A}_{12}\left( \boldsymbol{A}_{22}-\boldsymbol{A}_{21}\boldsymbol{A}_{11}^{-1}\boldsymbol{A}_{12} \right) ^{-1}\boldsymbol{A}_{21}\boldsymbol{A}_{11}^{-1}$

我们代入可以得到
$\boldsymbol{C}^{-1}=\left[ \begin{matrix} \boldsymbol{C}_{\boldsymbol{x}}^{-1}-\boldsymbol{C}_{\boldsymbol{x}}^{-1}\boldsymbol{C}_{\boldsymbol{xy}}\boldsymbol{B}^{-1}\boldsymbol{C}_{\boldsymbol{yx}}\boldsymbol{C}_{\boldsymbol{x}}^{-1}& -\boldsymbol{C}_{\boldsymbol{x}}^{-1}\boldsymbol{C}_{\boldsymbol{xy}}\boldsymbol{B}^{-1}\\ -\boldsymbol{B}^{-1}\boldsymbol{C}_{\boldsymbol{yx}}\boldsymbol{C}_{\boldsymbol{x}}^{-1}& \boldsymbol{B}^{-1}\\ \end{matrix} \right]$

其中
$\boldsymbol B = \boldsymbol C_{\boldsymbol {y y}} - \boldsymbol C_{\boldsymbol {y x}} \boldsymbol C^{-1}_{\boldsymbol {x x}} \boldsymbol C_{\boldsymbol {x y}}$

进一步，我们把 $\boldsymbol{C}^{-1}$ 分解为：
$\boldsymbol{C}^{-1}=\,\,\left[ \begin{matrix} \boldsymbol{I}& -\boldsymbol{C}_{\boldsymbol{x}}^{-1}\boldsymbol{C}_{\boldsymbol{xy}}\\ \boldsymbol{0}& \boldsymbol{I}\\ \end{matrix} \right] \left[ \begin{matrix} \boldsymbol{C}_{\boldsymbol{x}}^{-1}& \boldsymbol{0}\\ \boldsymbol{0}& \boldsymbol{B}^{-1}\\ \end{matrix} \right] \left[ \begin{matrix} \boldsymbol{I}& \boldsymbol{0}\\ -\boldsymbol{C}_{\boldsymbol{yx}}\boldsymbol{C}_{\boldsymbol{x}}^{-1}& \boldsymbol{I}\\ \end{matrix} \right]$

令 $\tilde{ \boldsymbol x} = \boldsymbol{x} - \mathbb{E}[\boldsymbol{x}]$ ， $\tilde{ \boldsymbol y} = \boldsymbol{y} - \mathbb{E}[\boldsymbol{y}]$ ，我们有
$\begin{aligned} Q &= \left[ \begin{array}{c} \boldsymbol{\tilde{x}}\\ \boldsymbol{\tilde{y}}\\ \end{array} \right] ^T\left[ \begin{matrix} \boldsymbol{I}& -\boldsymbol{C}_{\boldsymbol{x}}^{-1}\boldsymbol{C}_{\boldsymbol{xy}}\\ \boldsymbol{0}& \boldsymbol{I}\\ \end{matrix} \right] \left[ \begin{matrix} \boldsymbol{C}_{\boldsymbol{x}}^{-1}& \boldsymbol{0}\\ \boldsymbol{0}& \boldsymbol{B}^{-1}\\ \end{matrix} \right] \left[ \begin{matrix} \boldsymbol{I}& \boldsymbol{0}\\ -\boldsymbol{C}_{\boldsymbol{yx}}\boldsymbol{C}_{\boldsymbol{x}}^{-1}& \boldsymbol{I}\\ \end{matrix} \right] \left[ \begin{array}{c} \boldsymbol{\tilde{x}}\\ \boldsymbol{\tilde{y}}\\ \end{array} \right] \,\,-\,\,\boldsymbol{\tilde{x}}^T\boldsymbol{C}_{\boldsymbol{x}}^{-1}\boldsymbol{\tilde{x}} \\ & = \left[ \begin{array}{c} \boldsymbol{\tilde{x}}\\ \boldsymbol{\tilde{y}}-\boldsymbol{C}_{\boldsymbol{yx}}\boldsymbol{C}_{\boldsymbol{x}}^{-1}\boldsymbol{\tilde{x}}\\ \end{array} \right] ^T\left[ \begin{matrix} \boldsymbol{C}_{\boldsymbol{x}}^{-1}& \boldsymbol{0}\\ \boldsymbol{0}& \boldsymbol{B}^{-1}\\ \end{matrix} \right] \left[ \begin{array}{c} \boldsymbol{\tilde{x}}\\ \boldsymbol{\tilde{y}}-\boldsymbol{C}_{\boldsymbol{yx}}\boldsymbol{C}_{\boldsymbol{x}}^{-1}\boldsymbol{\tilde{x}}\\ \end{array} \right] -\,\,\boldsymbol{\tilde{x}}^T\boldsymbol{C}_{\boldsymbol{x}}^{-1}\boldsymbol{\tilde{x}} \\ & = \left( \boldsymbol{\tilde{y}}-\boldsymbol{C}_{\boldsymbol{yx}}\boldsymbol{C}_{\boldsymbol{x}}^{-1}\boldsymbol{\tilde{x}} \right) ^T\boldsymbol{B}^{-1}\left( \boldsymbol{\tilde{y}}-\boldsymbol{C}_{\boldsymbol{yx}}\boldsymbol{C}_{\boldsymbol{x}}^{-1}\boldsymbol{\tilde{x}} \right) \end{aligned}$

因此，条件概率 $p(\boldsymbol{y}|\boldsymbol{x})$ 表示为：
$p(\boldsymbol{y}|\boldsymbol{x}) = \frac{1} {(2\pi)^{\frac{N}{2}} \text{det}^{\frac{1}{2}} (\boldsymbol C_{\boldsymbol y} - \boldsymbol{C}_{\boldsymbol{yx}} \boldsymbol {C}_{\boldsymbol x}^{-1} \boldsymbol{C}_{\boldsymbol{xy}})} \exp \left( -\frac{1}{2} { \left \Vert \left (\boldsymbol C_{\boldsymbol {y }} - \boldsymbol C_{\boldsymbol {y x}} \boldsymbol C^{-1}_{\boldsymbol {x x}} \boldsymbol C_{\boldsymbol {x y}}\right )^{-\frac{1}{2}} \left( \boldsymbol y - \left(\mathbb{E}[\boldsymbol y] + \boldsymbol{C}_{\boldsymbol{yx}} \boldsymbol {C}_{\boldsymbol x}^{-1} (\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}]) \right) \right) \right \Vert}^2_2 \right)$

即
$\boldsymbol y| \boldsymbol x \sim \mathcal{N}\left(\mathbb{E}[\boldsymbol y] + \boldsymbol{C}_{\boldsymbol{yx}} \boldsymbol {C}_{\boldsymbol x}^{-1} (\boldsymbol{x} - \mathbb{E}[\boldsymbol{x}]), \boldsymbol C_{\boldsymbol {y}} - \boldsymbol C_{\boldsymbol {y x}} \boldsymbol C^{-1}_{\boldsymbol {x x}} \boldsymbol C_{\boldsymbol {x y}} \right) \tag{9}$

类似地，我们可以得到
$\boldsymbol x| \boldsymbol y \sim \mathcal{N}\left(\mathbb{E}[\boldsymbol x] + \boldsymbol{C}_{\boldsymbol{xy}} \boldsymbol {C}_{\boldsymbol y}^{-1} (\boldsymbol{y} - \mathbb{E}[\boldsymbol{y}]), \boldsymbol C_{\boldsymbol {x}} - \boldsymbol C_{\boldsymbol {x y}} \boldsymbol C^{-1}_{\boldsymbol {y y}} \boldsymbol C_{\boldsymbol {y x}} \right) \tag{10}$

结合条件高斯分布的线性模型

贝叶斯线性模型中协方差的对应关系：
$\boldsymbol C = \left[ \begin{matrix} \boldsymbol{C}_{\boldsymbol{x}}& \boldsymbol{C}_{\boldsymbol{xy}}\\ \boldsymbol{C}_{\boldsymbol{yx}}& \boldsymbol{C}_{\boldsymbol{y}}\\ \end{matrix} \right] = \left[ \begin{matrix} \boldsymbol{C}_{\boldsymbol{x}}& \boldsymbol{C}_{\boldsymbol{x}}\boldsymbol{H}^T\\ \boldsymbol{HC}_{\boldsymbol{x}}& \boldsymbol{HC}_{\boldsymbol{x}}\boldsymbol{H}^T+\boldsymbol{C}_{\boldsymbol{w}}\\ \end{matrix} \right] \tag{11}$
（1）似然函数

似然分布对应式(9)，把式(11)代入到式(9)中，我们发现：
$\boldsymbol y | \boldsymbol x \sim \mathcal{N} \left (\boldsymbol y; \boldsymbol {Hx}, \boldsymbol C_{\boldsymbol w} \right) \tag{12}$

我们要说明上述似然函数是由标准的联合分布推导的，很巧的是，该式与贝叶斯线性模型 $\boldsymbol y = \boldsymbol {H x} + \boldsymbol w$ 直观意义上的似然形式一致，如果 $\boldsymbol{x}$ 和 $\boldsymbol{w}$ 都服从高斯分布（这是大前提，对于一般的 $\boldsymbol{x}$ 的分布，我现在还不确定是否可以直接这样写，感觉应该是不能，具体问题可能得写出(2)的线性转换模型，再根据矩母函数和相应的逆变换判断），我们可以根据概率公式直接写出联合概率
$p(\boldsymbol y, \boldsymbol x)=p(\boldsymbol y | \boldsymbol x)p(\boldsymbol x)=\mathcal{N}\left (\boldsymbol y; \boldsymbol {Hx}, \boldsymbol C_{\boldsymbol w} \right) \cdot \mathcal{N}(\boldsymbol{ \mu_x}, \boldsymbol{C_x}) \tag{13}$

（2）后验函数
后验分布对应式(10)，把式(11)代入到式(10)中，我们发现：
$\begin{aligned} \mathbb{E} [\boldsymbol x| \boldsymbol y] & = \mathbb{E} [\boldsymbol x] + \boldsymbol C_{\boldsymbol x} \boldsymbol H^T \left ( \boldsymbol H \boldsymbol C_{\boldsymbol x} \boldsymbol H^T + \boldsymbol C_{\boldsymbol w} \right )^{-1} (\boldsymbol y - \mathbb{E} [\boldsymbol y]) \\ &= \boldsymbol \mu_{\boldsymbol x} + \boldsymbol C_{\boldsymbol x} \boldsymbol H^T \left ( \boldsymbol H \boldsymbol C_{\boldsymbol x} \boldsymbol H^T + \boldsymbol C_{\boldsymbol w} \right )^{-1} (\boldsymbol y - \boldsymbol H \boldsymbol \mu_{\boldsymbol x}) \tag{14} \end{aligned}$

与之对应的协方差矩阵为
$\boldsymbol C_{\boldsymbol x|\boldsymbol y} = \boldsymbol C_{\boldsymbol x} - \boldsymbol C_{\boldsymbol x} \boldsymbol H^T \left ( \boldsymbol H \boldsymbol C_{\boldsymbol x} \boldsymbol H^T + \boldsymbol C_{\boldsymbol w} \right )^{-1} \boldsymbol H \boldsymbol C_{\boldsymbol x} \tag{15}$

借助求逆定理
$(\pmb E + \pmb B \pmb C \pmb D)^{-1}=\pmb E^{-1}- \pmb E^{-1} \pmb B (\pmb C^{-1}+ D \pmb E^{-1} \pmb B)^{-1} \pmb D \pmb E^{-1}$

经过一系列化简，式(14)(15)还可以化为：
$\begin{aligned} \mathbb{E} [\boldsymbol x| \boldsymbol y] &= \boldsymbol \mu_{\boldsymbol x} + \left ( \boldsymbol C^{-1}_{\boldsymbol x} + \boldsymbol H^T \boldsymbol C^{-1}_{\boldsymbol w} \boldsymbol H \right)^{-1} \boldsymbol H^T \boldsymbol C^{-1}_{\boldsymbol w} (\boldsymbol y - \boldsymbol H \boldsymbol \mu_{\boldsymbol x}) \\ \boldsymbol C_{\boldsymbol x|\boldsymbol y} &= \left ( \boldsymbol C^{-1}_{\boldsymbol x} + \boldsymbol H^T \boldsymbol C^{-1}_{\boldsymbol w} \boldsymbol H \right)^{-1} \end{aligned} \tag{16}$

（3）似然函数 $\rightarrow$ 联合分布 $\rightarrow$ 后验分布

根据Bayes公式：
$\begin{aligned} p( \boldsymbol x|\boldsymbol y) &= \frac{p(\boldsymbol y | \boldsymbol x)p(\boldsymbol x)}{p(\boldsymbol y)} \\ & = \frac{p(\boldsymbol y | \boldsymbol x)p(\boldsymbol x)}{\int p(\boldsymbol y | \boldsymbol x)p(\boldsymbol x) \text{d} \boldsymbol x} \end{aligned}$

因为分母是归一化因子（或者理解为 $\boldsymbol{y}$ 已经被观测到了，所以认为 $p(\boldsymbol y)$ 已知），所以有：
$\begin{aligned} p( \boldsymbol x|\boldsymbol y) & \propto p(\boldsymbol y | \boldsymbol x)p(\boldsymbol x) \\ & = \mathcal{N}\left (\boldsymbol y; \boldsymbol {Hx}, \boldsymbol C_{\boldsymbol w} \right) \cdot \mathcal{N}(\boldsymbol{ \mu_x}, \boldsymbol{C_x}) \end{aligned}$

根据之前我写的博客两个复高斯分布的乘积，我们可以得到 $\mathcal{N}\left (\boldsymbol y; \boldsymbol {Hx}, \boldsymbol C_{\boldsymbol w} \right) \cdot \mathcal{N}(\boldsymbol{ \mu_x}, \boldsymbol{C_x})$ 的均值和方差为
$\begin{aligned} \mathbb{E} [\boldsymbol x| \boldsymbol y] &={\left ( \boldsymbol C^{-1}_{\boldsymbol x}+\boldsymbol H^T \boldsymbol C^{-1}_{\boldsymbol w} \boldsymbol H ^{} \right )}^{-1} \left( \boldsymbol C^{-1}_{\boldsymbol x}\boldsymbol \mu_{\boldsymbol x}+\boldsymbol H^T \boldsymbol C_{\boldsymbol w}^{-1}\boldsymbol{y } \right) \\ \boldsymbol C_{\boldsymbol x|\boldsymbol y} &= {\left ( \boldsymbol C^{-1}_{\boldsymbol x}+\boldsymbol H^T \boldsymbol C_{\boldsymbol w}^{-1} \boldsymbol H ^{} \right )}^{-1} \end{aligned} \tag{17}$

总结

贝叶斯线性模型：
$\boldsymbol y = \boldsymbol {H x} + \boldsymbol w$

（1） $\boldsymbol {x,y}$ 的联合分布
$\left[ \begin{array}{c} \boldsymbol{x}\\ \boldsymbol{y}\\ \end{array} \right] \sim \mathcal{N} \left( \left[ \begin{array}{c} \boldsymbol{\mu }\\ \boldsymbol{H\mu }\\ \end{array} \right] ,\left[ \begin{matrix} \boldsymbol{C}_{\boldsymbol{x}}& \boldsymbol{C}_{\boldsymbol{x}}\boldsymbol{H}^T\\ \boldsymbol{HC}_{\boldsymbol{x}}& \boldsymbol{HC}_{\boldsymbol{x}}\boldsymbol{H}^T+\boldsymbol{C}_{\boldsymbol{w}}\\ \end{matrix} \right] \right)$

（2） $\boldsymbol {y}$ 的边际分布
$\boldsymbol y \sim \mathcal{N}(\boldsymbol{H \mu},\boldsymbol{HC}_{\boldsymbol{x}}\boldsymbol{H}^T+\boldsymbol{C}_{\boldsymbol{w}})$

（3） $\boldsymbol y | \boldsymbol x$ 似然分布
$\boldsymbol y | \boldsymbol x \sim \mathcal{N} \left (\boldsymbol y; \boldsymbol {Hx}, \boldsymbol C_{\boldsymbol w} \right)$

我们要说明上述似然函数是由标准的联合分布推导的，很巧的是，该式与贝叶斯线性模型 $\boldsymbol y = \boldsymbol {H x} + \boldsymbol w$ 直观意义上的似然形式一致（ $\boldsymbol{x}$ 和 $\boldsymbol{w}$ 都服从高斯分布是大前提，对于一般的 $\boldsymbol{x}$ 的分布，我现在还不确定是否可以直接这样写，感觉应该是不能，具体问题可能得写出(2)的线性转换模型，再根据矩母函数和相应的逆变换判断）

（4） $\boldsymbol x | \boldsymbol y$ 后验分布
$\begin{aligned} \mathbb{E} [\boldsymbol x| \boldsymbol y] & \overset{a}{=} \boldsymbol \mu_{\boldsymbol x} + \boldsymbol C_{\boldsymbol x} \boldsymbol H^T \left ( \boldsymbol H \boldsymbol C_{\boldsymbol x} \boldsymbol H^T + \boldsymbol C_{\boldsymbol w} \right )^{-1} (\boldsymbol y - \boldsymbol H \boldsymbol \mu_{\boldsymbol x}) \\ & \overset{b}{=} \boldsymbol \mu_{\boldsymbol x} + \left ( \boldsymbol C^{-1}_{\boldsymbol x} + \boldsymbol H^T \boldsymbol C^{-1}_{\boldsymbol w} \boldsymbol H \right)^{-1} \boldsymbol H^T \boldsymbol C^{-1}_{\boldsymbol w} (\boldsymbol y - \boldsymbol H \boldsymbol \mu_{\boldsymbol x}) \\ & \overset{c}{=} {\left ( \boldsymbol C^{-1}_{\boldsymbol x}+\boldsymbol H^T \boldsymbol C^{-1}_{\boldsymbol w} \boldsymbol H ^{} \right )}^{-1} \left( \boldsymbol C^{-1}_{\boldsymbol x}\boldsymbol \mu_{\boldsymbol x}+\boldsymbol H^T \boldsymbol C_{\boldsymbol w}^{-1}\boldsymbol{y } \right) \end{aligned}$

上述 $(a, b, c)$ 三式是等价的，我们常见的应该是式(a)。这三个式子与LMMSE的形式也是等价的（只是形式上等价，与LMMSE的推导过程无关），因为后验分布是高斯分布，所以LMMSE与MMSE等价。
与之对应的协方差矩阵：
$\begin{aligned} \boldsymbol C_{\boldsymbol x|\boldsymbol y} & \overset{a}{=}\boldsymbol C_{\boldsymbol x} - \boldsymbol C_{\boldsymbol x} \boldsymbol H^T \left ( \boldsymbol H \boldsymbol C_{\boldsymbol x} \boldsymbol H^T + \boldsymbol C_{\boldsymbol w} \right )^{-1} \boldsymbol H \boldsymbol C_{\boldsymbol x} \\ & \overset{b,c}{=}\left ( \boldsymbol C^{-1}_{\boldsymbol x} + \boldsymbol H^T \boldsymbol C^{-1}_{\boldsymbol w} \boldsymbol H \right)^{-1} \end{aligned}$