漫步数理统计二十六——多元正态分布

最新推荐文章于 2025-03-14 08:17:01 发布

会敲键盘的猩猩

最新推荐文章于 2025-03-14 08:17:01 发布

阅读量1.9w

点赞数 10

分类专栏：漫步数理统计文章标签：多元正态分布谱分解

漫步数理统计专栏收录该内容

34 篇文章

订阅专栏

本片博文介绍多元正态分布，我们以 $n$ 维随机变量为主，但给出 $n=2$ 时二元情况的一些实例。与上篇文章一样，我们首先介绍标准情况然后扩展到一般情况，当然这里会用到向量与矩阵符号。

考虑随机向量 $\mathbf{Z}=(Z_1,\ldots,Z_n)^\prime$ ，其中 $Z_1,\ldots,Z_n$ 是独立同分布的 $N(0,1)$ 随机变量，那么对 $\mathbf{z}\in R^n,\mathbf{Z}$ 的密度为

f Z (z) = \prod i = 1 n 1 2 π ‾ ‾ ‾ \sqrt exp {- 1 2 z 2 i} = (1 2 π) n / 2 exp {- 1 2 \sum i = 1 n z 2 i} = (1 2 π) n / 2 exp {- 1 2 z' z} (1)

$\begin{align} f_{\mathbf{Z}}(\mathbf{z}) &=\prod_{i=1}^n\frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{1}{2}z_i^2\right\}=\left(\frac{1}{2\pi}\right)^{n/2}\exp\left\{-\frac{1}{2}\sum_{i=1}^nz_i^2\right\}\nonumber\\ &=\left(\frac{1}{2\pi}\right)^{n/2}\exp\left\{-\frac{1}{2}\mathbf{z}^\prime\mathbf{z}\right\}\tag1 \end{align}$

因为 $Z_i$ 的均值为0，方差为1且不相关，所以 $\mathbf{Z}$ 的均值与协方差矩阵为

E [Z] = 0, C o v [Z] = I n (2)

$\begin{equation} E[\mathbf{Z}]=\mathbf{0},Cov[\mathbf{Z}]=\mathbf{I_n}\tag2 \end{equation}$

其中 $\mathbf{I_n}$ 表示 $n$ 阶单位矩阵。回忆一下 $Z_i$ 为 $\exp{t_i^2/2}$ ，因为 $Z_i$ 是独立的，所以对于所有的 $\mathbf{t}\in R^n,\mathbf{Z}$ 的mgf为

M Z (t) = E [exp {t' Z}] = E [\prod i = 1 n exp {t i Z i}] = \prod i = 1 n E [exp {t i Z i}] = exp {1 2 \sum i = 1 n t 2 i} = exp {1 2 t' t} (3)

$\begin{align} M_{\mathbf{Z}}(\mathbf{t})=E[\exp\{\mathbf{t}^\prime\mathbf{Z}\}] &=E\left[\prod_{i=1}^n\exp\{t_iZ_i\}\right]=\prod_{i=1}^nE[\exp\{t_iZ_i\}]\nonumber\\ &=\exp\left\{\frac{1}{2}\sum_{i=1}^nt_i^2\right\}=\exp\left\{\frac{1}{2}\mathbf{t}^\prime\mathbf{t}\right\}\tag3 \end{align}$

我们称 $\mathbf{Z}$ 是均值为 $\mathbf{0}$ 协方差矩阵为 $\mathbf{I}_n$ 的多元正态分布，简写成 $\mathbf{Z}$ 满足 $N_n(\mathbf{0},\mathbf{I}_n)$ 分布。

对于一般情况，假设 $\boldsymbol{\Sigma}$ 是 $n\times n$ 的对称，半正定矩阵(psd)，那么根据线性代数的知识，我们总能将 $\boldsymbol{\Sigma}$ 分解为

Σ = Γ' Λ Γ (4)

$\begin{equation} \boldsymbol{\Sigma=\Gamma^\prime\Lambda\Gamma}\tag4 \end{equation}$

其中 $\boldsymbol{\Lambda}$ 是对角矩阵， $\boldsymbol{\Lambda}=diag(\lambda_1,\lambda_2,\ldots,\lambda_n),\lambda_1\geq\lambda_2\geq\cdots\lambda_n\geq0$ 是 $\boldsymbol{\Sigma}$ 的特征值， $\boldsymbol{\Gamma^\prime}$ 的列 $\boldsymbol{v_1,v_2,\ldots,v_n}$ 是相应的特征向量，这个分解叫做 $\boldsymbol{\Sigma}$ 的谱分解，矩阵 $\boldsymbol{\Gamma}$ 是正交矩阵，即 $\boldsymbol{\Gamma^{-1}=\Gamma^\prime}$ 因此 $\boldsymbol{\Gamma\Gamma^\prime}=\mathbf{I}$ 。另外还可以将谱分解写成如下形式：

Σ = Γ' Λ Γ = \sum i = 1 n λ i v i v' i (5)

$\begin{equation} \boldsymbol{\Sigma=\Gamma^\prime\Lambda\Gamma}=\sum_{i=1}^n\lambda_i\mathbf{v_iv_i^\prime}\tag5 \end{equation}$

因为 $\lambda_i$ 是非负的，所以我们能定义对角矩阵 $\boldsymbol{\Lambda^{1/2}}=(\sqrt{\lambda_1},\ldots,\sqrt{\lambda_n})$ ，那么 $\boldsymbol{\Gamma}$ 的正交性就意味着

Σ = Γ' Λ 1 / 2 Γ Γ' Λ 1 / 2 Γ

$\boldsymbol{\Sigma=\Gamma^\prime\Lambda^{1/2}\Gamma\Gamma^\prime\Lambda^{1/2}\Gamma}$

定义矩阵 $\boldsymbol{\Sigma}$ 的平方根为

Σ 1 / 2 = Γ' Λ 1 / 2 Γ (6)

$\begin{equation} \boldsymbol{\Sigma^{1/2}=\Gamma^\prime\Lambda^{1/2}\Gamma}\tag6 \end{equation}$

其中 $\boldsymbol{\Lambda^{1/2}}=diag(\sqrt{\lambda_1},\ldots,\sqrt{\lambda_n})$ ，注意 $\boldsymbol{\Sigma^{1/2}}$ 是对称psd矩阵，假设 $\boldsymbol{\Sigma}$ 是正定的 $(pd)$ ；即它的特征值都为正，那么很容易说明

(Σ 1 / 2) - 1 = Γ' Λ - 1 / 2 Γ (7)

$\begin{equation} (\boldsymbol{\Sigma^{1/2}})^{-1}=\boldsymbol{\Gamma^\prime\Lambda^{-1/2}\Gamma}\tag7 \end{equation}$

我们可以将等式左边写成 $\boldsymbol{\Sigma^{-1/2}}$ 。

$\mathbf{Z}$ 满足 $N(\mathbf{0,I}_n)$ 分布，令 $\boldsymbol{\Sigma}$ 是对称半正定矩阵且 $\boldsymbol{\mu}$ 是 $n\times 1$ 的常向量，随机向量 $\mathbf{X}$ 定义为

X = Σ 1 / 2 Z + μ (8)

$\begin{equation} \mathbf{X}=\boldsymbol{\Sigma^{1/2}}\mathbf{Z+}\boldsymbol{\mu}\tag8 \end{equation}$

根据 $(2)$ 可得

E [X] = μ, C o v [X] = Σ 1 / 2 Σ 1 / 2 = Σ (9)

$\begin{equation} E[\mathbf{X}]=\boldsymbol{\mu},Cov[\mathbf{X}]=\boldsymbol{\Sigma^{1/2}}\boldsymbol{\Sigma^{1/2}}=\boldsymbol{\Sigma}\tag9 \end{equation}$

进一步 $\mathbf{X}$ 的mgf为

M X (t) = E [exp {t' X}] = E [exp {t' Σ 1 / 2 Z + t' μ}] = exp {t' μ} E [exp {(Σ 1 / 2 t)' Z}] = exp {t' exp {(1 / 2) (Σ 1 / 2 t)' Σ 1 / 2 t} = exp {t' exp {(1 / 2) t' Σ t} (10)

$\begin{align} M_{\mathbf{X}}(\mathbf{t})=E[\exp\{\mathbf{t^\prime X}\}] &=E[\exp\{\mathbf{t^\prime}\boldsymbol{\Sigma^{1/2}}\mathbf{Z}+\mathbf{t^\prime}\boldsymbol{\mu}\}]\nonumber\\ &=\exp\{\mathbf{t^\prime}\boldsymbol{\mu}\}E[\exp\{(\boldsymbol{\Sigma^{1/2}}\mathbf{t})^\prime\mathbf{Z}\}]\nonumber\\ &=\exp\{\mathbf{t^\prime}\exp\{(1/2)(\boldsymbol{\Sigma^{1/2}}\mathbf{t})^\prime\boldsymbol{\Sigma^{1/2}}\mathbf{t}\}\nonumber\\ &=\exp\{\mathbf{t^\prime}\exp\{(1/2)\mathbf{t^\prime}\boldsymbol{\Sigma}\mathbf{t}\}\tag{10} \end{align}$

这就产生了下面的定义：

$\textbf{定义1：}$ 我们称 $n$ 维随机变量 $\mathbf{X}$ 是多元正态分布，当且仅当对所有的 $\mathbf{t}\in R^n$ ，它的mgf为

M X (t) = exp {t' μ + (1 / 2) t' Σ t} (11)

$\begin{equation} M_{\mathbf{X}}(\mathbf{t})=\exp\{\mathbf{t}^\prime\mathbf{\mu}+(1/2)\mathbf{t}^\prime\boldsymbol{\Sigma}\mathbf{t}\}\tag{11} \end{equation}$

其中 $\boldsymbol{\Sigma}$ 是对称半正定矩阵且 $\boldsymbol{\mu}\in R^n$ ，我们简单称 $\mathbf{X}$ 满足 $N_n(\boldsymbol{\mu},\boldsymbol{\Sigma})$ 分布。

注意这里我们是对半正定矩阵进行定义，一般情况 $\boldsymbol{\Sigma}$ 是正定的，这种情况下我们可以进一步得到 $\mathbf{X}$ 的密度。如果 $\boldsymbol{\Sigma}$ 是正定的，那么 $\boldsymbol{\Sigma}^{1/2}$ 也是正定的，它的逆就是 $(7)$ ，所以 $\mathbf{X,Z}$ 之间的变换 $(8)$ 是一对一的变换，它的逆变换为

Z = Σ - 1 / 2 (X - μ)

$\mathbf{Z}=\boldsymbol{\Sigma}^{-1/2}(\mathbf{X}-\boldsymbol{\mu})$

雅可比为 $\boldsymbol{|\Sigma^{-1/2}|=|\Sigma|^{-1/2}}$ ，因此通过化简得到 $\mathbf{X}$ 的pdf为

f X (x) = 1 ( 2 π ) n / 2 | Σ | 1 / 2 exp {- 1 2 (x - μ)' Σ (x - μ)} (12)

$\begin{equation} f_{\mathbf{X}}(\mathbf{x})=\frac{1}{(2\pi)^{n/2}|\boldsymbol{\Sigma}|^{1/2}}\exp\left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^\prime\boldsymbol{\Sigma}(\mathbf{x}-\boldsymbol{\mu})\right\}\tag{12} \end{equation}$

下面的两个定理非常有用，第一个是说多元正态随机向量的线性变换满足多元正态分布。

$\textbf{定理1：}$ 假设 $\mathbf{X}$ 满足 $N_n(\boldsymbol{\mu},\boldsymbol{\Sigma})$ 分布，令 $\mathbf{Y=AX+b}$ ，其中 $\mathbf{A}$ 是 $m\times n$ 矩阵且 $b\in R^m$ ，那么 $\mathbf{Y}$ 满足 $N_m(\mathbf{A}\boldsymbol{\mu}+\mathbf{b},\mathbf{A}\boldsymbol{\Sigma}\mathbf{A}^\prime)$ 。

$\textbf{证明：}$ 根据 $(11)$ ，对所有的 $\mathbf{t}\in R^m$ ， $\mathbf{Y}$ 的mgf为

M Y (t) = E [exp {t' Y}] = E [exp {t' (A X + b)}] = exp {t' b} E [exp {(A' t)' X}] = exp {t' b} exp {(A' t)' μ + (1 / 2) (A' t)' Σ (A' t)} = exp {t' (A μ + b) + (1 / 2) t' A Σ A' t}

$\begin{align*} M_{\mathbf{Y}}(\mathbf{t}) &=E[\exp\{\mathbf{t}^\prime\mathbf{Y}\}]\\ &=E[\exp\{\mathbf{t}^\prime(\mathbf{AX+b})\}]\\ &=\exp\{\mathbf{t^\prime b}\}E[\exp\{(\mathbf{A^\prime t})^\prime\mathbf{X}\}]\\ &=\exp\{\mathbf{t^\prime b}\}\exp\{\mathbf{(A^\prime t)^\prime}\boldsymbol{\mu}+(1/2)(\mathbf{A^\prime t})^\prime\boldsymbol{\Sigma}(\mathbf{A^\prime t})\}\\ &=\exp\{\mathbf{t^\prime}(\mathbf{A}\boldsymbol{\mu}+\mathbf{b})+(1/2)\mathbf{t^\prime A}\boldsymbol{\Sigma}\mathbf{A^\prime t}\} \end{align*}$

这是 $N_m(\mathbf{A}\boldsymbol{\mu}+\mathbf{b},\mathbf{A}\boldsymbol{\Sigma}\mathbf{A}^\prime)$ 分布的mgf。 $||$

该定理简单的推论给出了多元正态随机变量的边缘分布，令 $\mathbf{X_1}$ 是 $\mathbf{X}$ 的任意子向量，维数 $m<n$ ，因为我们能够重排均值与相关性，不失一般性， $\mathbf{X}$ 可以写成

X = [X 1 X 2] (13)

$\begin{equation} \mathbf{X}= \begin{bmatrix} \mathbf{X_1}\\ \mathbf{X_2} \end{bmatrix}\tag{13} \end{equation}$

其中 $\mathbf{X_2}$ 的维数为 $p=n-m$ ，利用同样的方法拆分 $\mathbf{X}$ 的均值与协方差矩阵得：

μ = [μ 1 μ 2] Σ = [Σ 11 Σ 21 Σ 12 Σ 22] (14)

$\begin{equation} \boldsymbol{\mu}= \begin{bmatrix} \boldsymbol{\mu_1}\\ \boldsymbol{\mu_2} \end{bmatrix} \quad \boldsymbol{\Sigma}= \begin{bmatrix} \boldsymbol{\Sigma_{11}}&\boldsymbol{\Sigma_{12}}\\ \boldsymbol{\Sigma_{21}}&\boldsymbol{\Sigma_{22}} \end{bmatrix}\tag{14} \end{equation}$

注意 $\boldsymbol{\Sigma_{11}}$ 是 $\mathbf{X_1}$ 得协方差矩阵， $\boldsymbol{\Sigma_{12}}$ 包含 $\mathbf{X_1,X_2}$ 元素之间的所有协方差，现在定义 $\mathbf{A}$ 为矩阵

A = [I m ⋮ O m p]

$\mathbf{A}=[\mathbf{I}_m\vdots\mathbf{O}_{mp}]$

其中 $\mathbf{O}_{mp}$ 是一个 $m\times p$ 的零矩阵，那么 $\mathbf{X_1=AX}$ 。因此在这个变换上应用定理1可以得到下面的推论：

$\textbf{推论1：}$ 假设 $\mathbf{X}$ 满足 $N_n(\boldsymbol{\mu},\boldsymbol{\Sigma})$ 分布，将其分成 $(13),(14)$ 的形式，那么 $\mathbf{X_1}$ 满足 $N_m(\boldsymbol{\mu}_1,\boldsymbol{\Sigma_{11}})$ 分布。

这是个非常有用的结论，因为它说明 $\mathbf{X}$ 的任何边缘分布也是正态分布，进一步它的均值与协方差矩阵与其部分向量的均值与方差有关。

$\textbf{例1：}$ 本例展示 $n=2$ 的多元正态情况，这种情况的分布称为二元正态，我们使用常用的符号 $(X,Y)$ 而不是 $(X_1,X_2)$ ，所以假设 $(X,Y)$ 满足 $N_2(\boldsymbol{\mu},\boldsymbol{\Sigma})$ 分布，其中

μ = [μ 1 μ 2] Σ = [σ 21 σ 12 σ 12 σ 22] (15)

$\begin{equation} \boldsymbol{\mu}= \begin{bmatrix} \mu_1\\ \mu_2 \end{bmatrix} \quad \boldsymbol{\Sigma}= \begin{bmatrix} \sigma_1^2&\sigma_{12}\\ \sigma_{12}&\sigma_2^2 \end{bmatrix}\tag{15} \end{equation}$

这里 $\mu_1,\sigma_1^2$ 分别是 $X$ 的均值与方差； $\mu_2,\sigma_2^2$ 分别是 $Y$ 的均值与方差； $\sigma_{12}$ 是 $X,Y$ 之间的协方差，回顾一下 $\sigma_{12}=\rho\sigma_1\sigma_2$ ，其中 $\rho$ 是 $X,Y$ 之间的相关系数。将 $\rho\sigma_1\sigma_2$ 代入 $\boldsymbol{\Sigma}$ 中的 $\sigma_{12}$ ，很容易看出 $\boldsymbol{\Sigma}$ 的行列式为 $\sigma_1^2\sigma_2^2(1-\rho^2)$ 。另外 $\rho^2\leq 1$ ，接下里我们假设 $\rho^2<1$ ，这时候 $\boldsymbol{\Sigma}$ 是可逆的(也是正定的)，进一步因为 $\boldsymbol{\Sigma}$ 是一个 $2\times 2$ 矩阵，所以它的逆很容易定义为

Σ - 1 = 1 σ 2 1 σ 2 2 ( 1 - ρ 2 ) [σ 22 - ρ σ 1 σ 2 - ρ σ 1 σ 2 σ 21] (16)

$\begin{equation} \boldsymbol{\Sigma^{-1}}=\frac{1}{\sigma_1^2\sigma_2^2(1-\rho^2)} \begin{bmatrix} \sigma_2^2&-\rho\sigma_1\sigma_2\\ -\rho\sigma_1\sigma_2&\sigma_1^2 \end{bmatrix}\tag{16} \end{equation}$

利用这个表达式， $(X,Y)$ 的pdf可以写成

f (x, y) = 1 2 π σ 1 σ 2 1 - ρ 2 ‾ ‾ ‾ ‾ ‾ ‾ \sqrt e - q / 2, - \infty < x < \infty, - \infty < y < \infty (17)

$\begin{equation} f(x,y)=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-q/2},\ -\infty<x<\infty,\ -\infty<y<\infty\tag{17} \end{equation}$

其中，

q = 1 1 - ρ 2 [(x - μ 1 σ 1) 2 - 2 ρ (x - μ 1 σ 1) (y - μ 2 σ 2) + (y - μ 2 σ 2) 2] (18)

$\begin{equation} q=\frac{1}{1-\rho^2}\left[\left(\frac{x-\mu_1}{\sigma_1}\right)^2-2\rho\left(\frac{x-\mu_1}{\sigma_1}\right)\left(\frac{y-\mu_2}{\sigma_2}\right)+\left(\frac{y-\mu_2}{\sigma_2}\right)^2\right]\tag{18} \end{equation}$

如果 $X,Y$ 是独立的随机变量，那么它们的相关系数为0。如果它们是正态的，根据推论1， $X$ 满足 $N(\mu_1,\sigma_1^2)$ 分布， $Y$ 满足 $N(\mu_2,\sigma_2^2)$ 分布。进一步，基于 $(17)$ ，对于 $(X,Y)$ 的联合pdf，如果相关系数为0，那么 $X,Y$ 是独立的。即对于二元正态情况，独立等价于 $\rho=0$ ，多元正态情况同样成立。

一般而言，如果两个随机变量是独立的，那么它们的协方差为0，但是反过来不一定对。然而对于正态情况却为真。

$\textbf{定理2：}$ 假设 $\mathbf{X}$ 满足 $N_n(\boldsymbol{\mu},\boldsymbol{\Sigma})$ 分布，且如 $(13),(14)$ 那样划分，那么 $\mathbf{X_1,X_2}$ 是独立的，当且仅当 $\boldsymbol{\Sigma_{12}}=\mathbf{O}$ 。

$\textbf{证明：}$ 首先注意到 $\boldsymbol{\Sigma_{21}=\Sigma{12}^\prime}$ ， $\mathbf{X_1,X_2}$ 的联合mgf为

M X 1, X 2 (t 1, t 2) = exp {t 1' μ 1 + t 2' μ 2 + 1 2 (t' 1 Σ 11 t 1 + t' 2 Σ 22 t 2 + t' 2 Σ 21 t 1 + t' 1 Σ 12 t 2)} (19)

$\begin{equation} M_{\mathbf{X_1,X_2}}(\mathbf{t_1,t_2})=\exp\left\{\mathbf{t_1}^\prime\boldsymbol{\mu_1}+\mathbf{t_2}^\prime\boldsymbol{\mu_2}+\frac{1}{2}(\mathbf{t_1^\prime}\boldsymbol{\Sigma_{11}}\mathbf{t_1}+\mathbf{t_2^\prime}\boldsymbol{\Sigma_{22}}\mathbf{t_2}+\mathbf{t_2^\prime}\boldsymbol{\Sigma_{21}}\mathbf{t_1}+\mathbf{t_1^\prime}\boldsymbol{\Sigma_{12}}\mathbf{t_2})\right\}\tag{19} \end{equation}$

其中 $\mathbf{t=(t_1^\prime,t_2^\prime)}$ 是与 $\boldsymbol{\mu}$ 一样的划分，根据推论1， $\mathbf{X_1}$ 满足 $N_m(\boldsymbol{\mu_1},\boldsymbol{\Sigma_{11}})$ 分布， $\mathbf{X_2}$ 满足 $N_p(\boldsymbol{\mu_2},\boldsymbol{\Sigma_{22}})$ 分布，因此它们边缘mgf的乘积为：

M X 1 (t 1) M X 2 (t 2) = exp {t' 1 μ 1 + t' 2 μ 2 + 1 2 (t' 1 Σ 11 t 1 + t' 2 Σ 22 t 2)} (20)

$\begin{equation} M_{\mathbf{X_1}}(\mathbf{t_1})M_{\mathbf{X_2}}(\mathbf{t_2})=\exp\left\{\mathbf{t_1^\prime}\boldsymbol{\mu_1}+\mathbf{t_2^\prime}\boldsymbol{\mu_2}+\frac{1}{2}(\mathbf{t_1^\prime}\boldsymbol{\Sigma_{11}}\mathbf{t_1}+\mathbf{t_2^\prime}\boldsymbol{\Sigma_{22}\mathbf{t_2}})\right\}\tag{20} \end{equation}$

$\mathbf{X_1,X_2}$ 是独立的，当且仅当 $(19),(20)$ 想等。如果 $\boldsymbol{\Sigma_{12}}=\mathbf{O}$ ，那么表达式想等且 $\mathbf{X_1,X_2}$ 独立。如果 $\mathbf{X_1,X_2}$ 独立，那么它们元素之间的协方差为0；即 $\boldsymbol{\Sigma_{12}}=\mathbf{O},\boldsymbol{\Sigma_{21}}=\mathbf{O}$ 。

推论1说明多元正态的边缘分布是正态分布，条件分布同样如此。结合定理1与定理2可以得出下面的定理。

$\textbf{定理3：}$ 假设 $\mathbf{X}$ 满足 $N_n(\boldsymbol{\mu,\Sigma})$ 分布，划分成 $(13),(14)$ ，假设 $\boldsymbol{\Sigma}$ 是正定的，那么 $\mathbf{X_1|X_2}$ 的条件分布为

N m (μ 1 + Σ 12 Σ - 1 22 (X 2 - μ 2), Σ 11 - Σ 12 Σ - 1 22 Σ 21) (21)

$\begin{equation} N_m(\boldsymbol{\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(\mathbf{X_2}-\boldsymbol{\mu_2}}),\boldsymbol{\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}})\tag{21} \end{equation}$

$\textbf{证明：}$ 考虑随机变量 $\mathbf{W=X_1-}\boldsymbol{\Sigma_{12}\Sigma_{22}^{-1}}\mathbf{X_2}$ 与 $\mathbf{X_2}$ 的联合分布，这个分布是通过下面的变换得到的

[W X 2] = [I m O - Σ 12 Σ - 1 22 I p] [X 1 X 2]

$\begin{bmatrix} \mathbf{W}\\ \mathbf{X_2} \end{bmatrix}= \begin{bmatrix} \mathbf{I}_m&-\boldsymbol{\Sigma_{12}\Sigma_{22}^{-1}}\\ \mathbf{O}&\mathbf{I}_p \end{bmatrix} \begin{bmatrix} \mathbf{X_1}\\ \mathbf{X_2} \end{bmatrix}$

因为这是一个线性变换，所以根据定理1可知联合分布为多元正态，且 $E[\mathbf{W}]=\boldsymbol{\mu_1-\Sigma_{12}\Sigma_{22}^{-1}\mu_2},E[\mathbf{X_2}]=\boldsymbol{\mu_2}$ ，协方差矩阵为

[I m O - Σ 12 Σ - 1 22 I p] [Σ 11 Σ 21 Σ 12 Σ 22] [I m - Σ - 1 22 Σ 21 O I p] = [Σ 11 - Σ 12 Σ - 1 22 Σ 21 O O Σ 22]

$\begin{align*} &\begin{bmatrix} \mathbf{I}_m&-\boldsymbol{\Sigma_{12}\Sigma_{22}^{-1}}\\ \mathbf{O}&\mathbf{I}_p \end{bmatrix} \begin{bmatrix} \boldsymbol{\Sigma_{11}}&\boldsymbol{\Sigma_{12}}\\ \boldsymbol{\Sigma_{21}}&\boldsymbol{\Sigma_{22}} \end{bmatrix} \begin{bmatrix} \mathbf{I}_m&\mathbf{O}\\ -\boldsymbol{\Sigma_{22}^{-1}\Sigma_{21}}&\mathbf{I}_p \end{bmatrix}=\\ &\begin{bmatrix} \boldsymbol{\Sigma_{11}-\boldsymbol{\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}}}&\mathbf{O}\\ \mathbf{O}&\boldsymbol{\Sigma_{22}} \end{bmatrix} \end{align*}$

因此根据定理2，随机向量 $\mathbf{W,X_2}$ 是独立的，故 $\mathbf{W|X_2}$ 的条件分布与 $\mathbf{W}$ 的边缘分布一样；即
$\mathbf{W|X_2}$ 满足 $N_m(\boldsymbol{\mu_1-\Sigma_{12}\Sigma_{22}^{-1}\mu_2},\boldsymbol{\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}})$ ，进一步因为独立性，给定 $\mathbf{X_2},\mathbf{W+}\boldsymbol{\Sigma_{12}\Sigma_{22}^{-1}}\mathbf{X_2}$ 的分布为

N m (μ 1 - Σ 12 Σ - 1 22 μ 2 + Σ 12 Σ - 1 22 X 2, Σ 11 - Σ 12 Σ - 1 22 Σ 21) (22)

$\begin{equation} N_m(\boldsymbol{\mu_1-\Sigma_{12}\Sigma_{22}^{-1}\mu_2}+\boldsymbol{\Sigma_{12}\Sigma_{22}^{-1}}\mathbf{X_2},\boldsymbol{\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}})\tag{22} \end{equation}$

得证。 $||$

$\textbf{例2：}$ 依然考虑例1的二元情况，我们反转下变量，使得 $\mathbf{Y=X_1,X=X_2}$ ，给定 $X=x,Y$ 的条件分布根据 $(21)$ 可知为

N [μ 2 + ρ σ 2 σ 1 (x - μ 1), σ 22 (1 - ρ 2)] (23)

$\begin{equation} N[\mu_2+\rho\frac{\sigma_2}{\sigma_1}(x-\mu_1),\sigma_2^2(1-\rho^2)]\tag{23} \end{equation}$

因此而与二元正态分布，给定 $X=x$ ， $Y$ 的条件均值是 $x$ 的线性函数

E (Y | x) = μ 2 + ρ σ 2 σ 1 (x - μ 1)

$E(Y|x)=\mu_2+\rho\frac{\sigma_2}{\sigma_1}(x-\mu_1)$

线性条件均值 $E(Y|x)$ 中 $x$ 的系数为 $\rho\sigma_2/\sigma_1$ 。在一般线性条件均值 $E(Y|x)$ 中 $x$ 的系数为相关系数与 $\sigma_2/\sigma_1$ 的乘积。

虽然给定 $X=x,Y$ 的条件分布均值依赖 $x$ (除非 $\rho=0$ )，但是方差 $\sigma_2^2(1-\rho^2)$ 对所有 $x$ 值都是一样的，同样的方式我们可以给出 $Y=y,X$ 的条件分布为

N [μ 1 + ρ σ 1 σ 2 (y - μ 2), σ 21 (1 - ρ 2)]

$N[\mu_1+\rho\frac{\sigma_1}{\sigma_2}(y-\mu_2),\sigma_1^2(1-\rho^2)]$

回忆一下，如果随机变量 $X$ 满足 $N(\mu,\sigma_2)$ 分布，那么随机变量 $[(X-\mu)/\sigma]^2$ 满足 $\chi^2(1)$ 分布，多元情况类似，如下定理所述。

$\textbf{定理4：}$ 假设 $\mathbf{X}$ 满足 $N_n(\boldsymbol{\mu,\Sigma})$ 分布，其中 $\boldsymbol{\Sigma}$ 是正定矩阵，那么随机变量 $W=(\mathbf{X-}\boldsymbol{\mu})^\prime\boldsymbol{\Sigma}^{-1}(\mathbf{X}-\boldsymbol{\mu})$ 满足 $\chi^2(n)$ 分布。

$\textbf{证明：}$ 将 $\boldsymbol{\Sigma}$ 写成 $\boldsymbol{\Sigma}^{1/2}\boldsymbol{\Sigma}^{1/2}$ ，其中 $\boldsymbol{\Sigma}^{1/2}$ 定义为 $(6)$ ，那么 $\mathbf{Z=}\boldsymbol{\Sigma^{-1/2}}(\mathbf{X-\boldsymbol{\mu}})$ 满足 $N_n(\mathbf{0,I}_n)$ ，令 $W=\mathbf{Z^\prime Z}=\sum_{i=1}^nZ_i^2$ ，因为对于 $i=1,2,\ldots,n,Z_i$ 满足 $N(0,1)$ 分布，所以 $Z_i^2$ 满足 $\chi^2(1)$ 分布，因为 $Z_1,\ldots,Z_n$ 是独立的标准正态分布，所以 $\sum_{i=1}Z_i^2=W$ 满足 $\chi^2(n)$ 分布。