概率论与数理统计系列笔记之第三章——多维随机变量及其分布

欧阳妙妙

已于 2022-11-24 21:57:00 修改

阅读量145

点赞数 1

文章标签：概率论

于 2022-11-14 21:41:37 首次发布

本文链接：https://blog.csdn.net/wantong_/article/details/127838445

版权

概率论与数理统计笔记（第三章多维随机变量及其分布）

对于统计专业来说，书本知识总有遗忘，翻看教材又太麻烦，于是打算记下笔记与自己的一些思考，主要参考用书是茆诗松老师编写的《概率论与数理统计教程》，其他知识待后续书籍补充。

文章目录

概率论与数理统计笔记（第三章多维随机变量及其分布）
第三章多维随机变量及其分布

第三章多维随机变量及其分布

3.1 多维随机向量及其联合分布

3.1.1 多维随机变量

下面我们先给出 $n$ 维随机变量的定义.
定义 3.1.1
如果 $X_1(\omega), X_2(\omega), \cdots, X_n(\omega)$ 是定义在同一个样本空间 $\Omega=$ $\{\omega\}$ 上的 $n$ 个随机变量, 则称
$X(\omega)=\left(X_1(\omega), X_2(\omega), \cdots, X_n(\omega)\right)$
为 $n$ 维 (或 $n$ 元) 随机变量或随机向量.

3.1 .2 联合分布函数

定义 3.1.2
对任意的 $n$ 个实数 $x_1, x_2, \cdots, x_n$ , 则 $n$ 个事件 $\left\{X_1 \leqslant x_1\right\}, \{X_2 \leqslant$ $x_2\}, \cdots,\{X_n \leqslant x_n \}$ 同时发生的概率
$F\left(x_1, x_2, \cdots, x_n\right)=P\left(X_1 \leqslant x_1, X_2 \leqslant x_2, \cdots, X_n \leqslant x_n\right)$
称为 $n$ 维随机变量 $\left(X_1, X_2, \cdots, X_n\right)$ 的联合分布函数.

定理 3.1.1 任一二维联合分存函数 $F (x, y)$ 必具有如下四条基本性质:
(1) 单调性
$F (x, y)$ 分别对 $x$ 或 $y$ 是单调非减的, 即
当 $x_1<x_2$ 时, 有 $F\left(x_1, y\right) \leqslant F\left(x_2, y\right)$ ,
当 $y_1<y_2$ 时, 有 $F\left(x, y_1\right) \leqslant F\left(x, y_2\right)$ .
(2) 有界性
对任意的 $x$ 和 $y$ , 有 $\leqslant$ $\leqslant 1$ , 且
$\begin{aligned} &F(-\infty, y)=\lim _{x \rightarrow-\infty} F(x, y)=0, \\ &F(x,-\infty)=\lim _{\rightarrow-\infty} F(x, y)=0, \\ &F(\infty, \infty)=\lim _{x, y \rightarrow \infty} F(x, y)=1 . \end{aligned}$
(3) 右连续性
对每个变量都是右连续的, 即
$\begin{aligned} &F(x+0, y)=F(x, y), \\ &F(x, y+0)=F(x, y) . \end{aligned}$
(4) 非负性
对任意的 $a < b, c < d$ 有
$\begin{aligned} & P(a<X \leqslant b, c<Y \leqslant d) \\ =& F(b, d)-F(a, d)-F(b, c)+F(a, c) \geqslant 0 . \end{aligned}$

3.1.3 联合分布列

定义 3.1.3
如果二维随机变量 $(X, Y)$ 只取有限个或可列个数对 $\left(x_i, y_j\right)$ , 则称 $(X, Y)$ 为二维离散随机变量, 称
$p_{i j}=P\left(X=x_i, Y=y_j\right) ， \quad i, j=1,2, \cdots$
为 $(X, Y)$ 的联合分布列.

联合分布列的基本性质:
(1) 非负性 $p_{i j} \geqslant 0$ .
(2) 正则性 $\sum_{i=1}^{\infty} \sum_{j=1}^{\infty} p_{i j}=1$ .

3.1.4 联合密度函数

定义 3.1.4 如果存在二元非负函数 $p (x, y)$ , 使得二维随机变量 $(X, Y)$ 的分布函数 $F (x, y)$ 可表示为
$y)=\int_{-\infty}^{x} \int_{-\infty}^y p(u, v) \mathrm{d} v \mathrm{~d} u,$
则称 $(X, Y)$ 为二维连续随机变量, 称 $p (u, v)$ 为 $(X, Y)$ 的联合密度函数.

联合密度函数的基本性质:
（1）非负性 $\geqslant 0$ .
（2）正则性 $\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p(x, y) \mathrm{d} y \mathrm{~d} x=1$ .
给出联合密度函数 $p (x, y)$ , 就可以求有关事件的概率了. 若 $G$ 为平面上的一个区域, 则事件 $\{(X, Y) \in G\}$ 的概率可表示为在 $G$ 上对 $p (x, y)$ 的二重积分
$\in G)=\iint_G p(x, y) \mathrm{d} x \mathrm{~d} y .$

3.1.5 常用多维分布

下面介绍一些多维随机变量的常用分布.
一、多项分布
多项分布是重要的多维离散分布，它是二项分布的推广.
进行 $n$ 次独立重复试验, 如果每次试验有 $r$ 个互不相容结果: $A_1, A_2, \cdots, A_r$ 之一发生, 且每次试验中 $A_i$ 发生的概率为 $p_i=P\left(A_i\right), i=1,2, \cdots, r$ , 且 $p_1+p_2+\cdots+$ $p_s=1$ . 记 $X_i$ 为 $n$ 次独立重复试验中 $A_i$ 出现的次数, $\cdots, r$ . 则 $\left(X_1, X_2, \cdots\right.$ , $\left.X_r\right)$ 取值 $\left(n_1, n_2, \cdots, n_r\right)$ 的概率, 即 $A_1$ 出现 $n_1$ 次, $A_2$ 出现 $n_2$ 次, $Ar \cdots \cdots, A_{r}$ 出现 $n_r$ 次的概率为
$P\left(X_1=n_1, X_2=n_2, \cdots, X_r=n_r\right)=\frac{n !}{n_{1} ! n_{2} ! \cdots n_{r} !} p_1^{n_1} p_2^{n_2} \ldots p_r^{n_r},$
其中 $n=n_1+n_2+\cdots+n_r$ .

二、多维超几何分布
袋中有 $N$ 个球, 其中有 $N_i$ 个 $i$ 号球, $i = 1$ , $\cdots, r$ , 且 $N=N_1+N_2+\cdots+N_r$ . 从中任意取出 $n$ 个. 若记 $X_i$ 为取出的 $n$ 个球中 $i$ 号球的个数, $\cdots, r$ , 则
$P\left(X_1=n_1, X_2=n_2, \cdots, X_r=n_r\right)=\frac{\left(\begin{array}{l} N_1 \\ n_1 \end{array}\right)\left(\begin{array}{l} N_2 \\ n_2 \end{array}\right) \cdots\left(\begin{array}{l} N_r \\ n_r \end{array}\right)}{\left(\begin{array}{l} N \\ n \end{array}\right)},$
其中 $n_1+n_2+\cdots+n_c=n$ .

三、多维均匀分布
设 $D$ 为 $\mathbf{R}^n$ 中的一个有界区域,其度量(平面的为面积,空间的为体积等)为 $S_D$ , 如果多维随机变量 $\left(X_1, X_2, \cdots, X_n\right)$ 的联合密度函数为
$p\left(x_1, x_2, \cdots, x_n\right)= \begin{cases}\frac{1}{S_D}, & \left(x_1, x_2, \cdots, x_n\right) \in D ， \\ 0, & \text { 其他. }\end{cases}$
则称 $\left(X_1, X_2, \cdots, X_n\right)$ 服从 $D$ 上的多维均匀分布, 记为 $\left(X_1, X_2, \cdots, X_n\right) \sim U(D)$ .

四、二元正态分布
如果二维随机变量 $(X, Y)$ 的联合密度函数为
$\begin{aligned} p(x, y)=& \frac{1}{2 \pi \sigma_1 \sigma_2 \sqrt{1-\rho^2}} \exp \left\{-\frac{1}{2\left(1-\rho^2\right)}\left[\frac{\left(x-\mu_1\right)^2}{\sigma_1^2}\right.\right.\\ &\left.\left.-2 \rho \frac{\left(x-\mu_1\right)\left(y-\mu_2\right)}{\sigma_1 \sigma_2}+\frac{\left(y-\mu_2\right)^2}{\sigma_2^2}\right]\right\},-\infty<x, y<\infty, \end{aligned}$
则称 $(X, Y)$ 服从二元正态分布, 记为 $\sim N\left(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho\right)$ . 其中五个参数的取值范围分别是
$-\infty<\mu_1, \mu_2<\infty, \quad \sigma_1, \sigma_2>0, \quad-1 \leqslant \rho \leqslant 1 \text {. }$
以后将指出: $\mu_1, \mu_2$ 分别是 $X$ 与 $Y$ 的均值, $\sigma_1^2, \sigma_2^2$ 分别是 $X$ 与 $Y$ 的方差, $\rho$ 是 $X$ 与 $Y$ 的相关系数.

3.2 边际分布与随机变量的独立性

3.2.1 边际分布函数

如果在二维随机变量 $(X, Y)$ 的联合分布函数 $F (x, y)$ 中令 $\rightarrow \infty$ , 由于 $\{Y<\infty\}$ 为必然事件, 故可得
$\lim _{y\rightarrow \infty} F(x, y)=P(X \leqslant x, Y<\infty)=P(X \leqslant x),$
这是由 $(X, Y)$ 的联合分布函数 $F (x, y)$ 求得的 $X$ 的分布函数, 被称为 $X$ 的边际分布, 记为
$F_X(x)=F(x, \infty) .$
类似地, 在 $F (x, y)$ 中令 $\rightarrow \infty$ , 可得 $Y$ 的边际分布
$F_Y(y)=F(\infty, y) .$
在三维随机变量 $(X, Y, Z)$ 的联合分布函数 $F (x, y, z)$ 中, 用类似的方法可得到更多的边际分布函数:
$\begin{aligned} &F_x(x)=F(x, \infty, \infty), \\ &F_y(y)=F(\infty, y, \infty), \\ &F_z(z)=F(\infty, \infty, z), \\ &F_{x, y}(x, y)=F(x, y, \infty), \\ &F_{x, z}(x, z)=F(x, \infty, z), \\ &F_{y, z}(y, z)=F(\infty, y, z) . \end{aligned}$
在更高维的场合, 也可类似地从联合分布函数获得其低维的边际分布函数.

3.2.2 边际分布列

在二维离散随机变量 $(X, Y)$ 的联合分布列 $\left\{ P\left(X=x_i, Y=y_j\right)\right\}$ 中, 对 $j$ 求和所得的分布列
$\sum_{j=1}^{\infty} P\left(X=x_i, Y=y_j\right)=P\left(X=x_i\right) ， i=1,2, \cdots$
被称为 $X$ 的边际分布列. 类似地, 对 $i$ 求和所得的分布列
$\sum_{i=1}^{\infty} P\left(X=x_i, Y=y_j\right)=P\left(Y=y_j\right), j=1,2, \cdots$
被称为 $Y$ 的边际分布列.

3.2.3 边际密度函数

如果二维连续随机变量 $(X, Y)$ 的联合密度函数为 $p (x, y)$ , 因为
$\begin{aligned} &F_X(x)=F(x, \infty)=\int_{-\infty}^x\left(\int_{-\infty}^{\infty} p(u, v) \mathrm{d} v\right) \mathrm{d} u=\int_{-\infty}^x p_X(u) \mathrm{d} u, \\ &F_Y(y)=F(\infty, y)=\int_{-\infty}^{y}\left(\int_{-\infty}^{\infty} p(u, v) \mathrm{d} u\right) \mathrm{d} v=\int_{-\infty}^y p_Y(v) \mathrm{d} v, \end{aligned}$
其中 $p_X(x)$ 和 $p_Y(y)$ 分别为
$\begin{aligned} &p_x(x)=\int_{-\infty}^{\infty} p(x, y) \mathrm{d} y, \\ &p_y(y)=\int_{-\infty}^{\infty} p(x, y) \mathrm{d} x . \end{aligned}$

3.2.4 随机变量间的独立性

定义 3.2.1
设 $n$ 维随机变量 $\left(X_1, X_2, \cdots, X_n\right)$ 的联合分布函数为 $F\left(x_1, x_2\right.$ , $\left.\cdots, x_n\right), F_i\left(x_i\right)$ 为 $X_i$ 的边际分布函数. 如果对任意 $n$ 个实数 $x_1, x_2, \cdots, x_n$ , 有
$F\left(x_1, x_2, \cdots, x_n\right)=\prod_{i=1}^n F_i\left(x_i\right),$
则称 $X_1, X_2, \cdots, X_n$ 相互独立.

在离散随机变量场合, 如果对其任意 $n$ 个取值 $x_1, x_2, \cdots, x_n$ , 有
$P\left(X_1=x_1, X_2=x_2, \cdots, X_n=x_n\right)=\prod_{i=1}^n P\left(X_i=x_i\right),$
则称 $X_1, X_2, \cdots, X_n$ 相互独立.
在连续随机变量场合, 如果对任意 $n$ 个实数 $x_1, x_2, \cdots, x_n$ , 有
$p\left(x_1, x_2, \cdots, x_n\right)=\prod_{i=1}^n p_i\left(x_i\right),$
则称 $X_1, X_2, \cdots, X_n$ 相互独立.

3.3 多维随机变量函数的分布

3.3.1 多维离散随机变量函数的分布

设 $\left(X_1, X_2, \cdots, X_n\right)$ 为 $n$ 维离散随机变量, 则某一函数 $Y=g\left(X_1, X_2, \cdots, X_n\right)$ 是一维离散随机变量. 当 $\left(X_1, X_2, \cdots, X_n\right)$ 所有可能取值较少时, 可将 $Y$ 的取值一一列出, 然后再合并整理就可得出结果.

3.3.2 最大值与最小值的分布

下面将以例子形式来讨论寻求最大值与最小值的概率分布的方法.

例 3.3.4 (最大值分布)
设 $X_1, X_2, \cdots, X_n$ 是相互独立的 $n$ 个随机变量, 若 $Y=\max \left\{X_1, X_2, \cdots, X_n\right\}$ . 试在以下情况下求 $Y$ 的分布:
(1) $X_i \sim F_i(x), i=1,2, \cdots, n$ ;
(2) 诸 $X_i$ 同分布, 即 $X_i \sim F(x), i=1,2, \cdots, n$ ;
(3) 诸 $X_i$ 为连续随机变量, 且诸 $X_i$ 同分布, 即 $X_i$ 的密度函数均为 $p (x), i =$ $\cdots, n$ ;
(4) $X_i \sim \operatorname{Exp}(\lambda), i=1,2, \cdots, n$ .
解 (1) $Y=\max \left\{X_1, X_2, \cdots, X_n\right\}$ 的分布函数为
$\begin{aligned} F_Y(y) &=P\left(\max \left\{X_1, X_2, \cdots, X_n\right\} \leqslant y\right)=P\left(X_1 \leqslant y, X_2 \leqslant y, \cdots, X_n \leqslant y\right) \\ &=P\left(X_1 \leqslant y\right) P\left(X_2 \leqslant y\right) \cdots P\left(X_n \leqslant y\right)=\prod_{i=1}^n F_i(y) . \end{aligned}$
(2) 将 $X_i$ 的共同分布函数 $F (x)$ 代人上式得
$F_Y(y)=[F(y)]^n.$
(3) $Y$ 的分布函数仍为上式, 密度函数可对上式关于 $y$ 求导得
$p_Y(y)=F_Y^{\prime}(y)=n[F(y)]^{n-1} p(y) .$
(4) 将 $\operatorname{Exp}(\lambda)$ 的分布函数和密度函数代入得：
$\begin{aligned} &F_Y(y)= \begin{cases}0, & y<0, \\ \left(1-\mathrm{e}^{-\lambda y}\right)^n, & y \geqslant 0 .\end{cases} \\ &p_Y(y)= \begin{cases}0, & y<0, \\ n\left(1-\mathrm{e}^{-\lambda y}\right)^{n-1} \lambda \mathrm{e}^{-\lambda y}, & y \geqslant 0 .\end{cases} \end{aligned}$
例 3.3.5 (最小值分布)
设 $X_1, X_2, \cdots, X_n$ 是相互独立的 $n$ 个随机变量,若 $Y=\min \left\{X_1, X_2, \cdots, X_n\right\}$ . 试在以下情况下求 $Y$ 的分布 :
(1) $X_i \sim F_i(x), i=1,2, \cdots, n$ ;
(2) 诸 $X_i$ 同分布, 即 $X_i \sim F(x), i=1,2, \cdots, n$ ;
(3) 诸 $X_i$ 为连续随机变量, 且诸 $X_i$ 同分布, 即 $X_i$ 的密度函数为 $p (x), i = 1$ , $\cdots, n$ ;
(4) $X_i \sim \operatorname{Exp}(\lambda), i=1,2, \cdots, n$ .
解 (1) $Y=min\{X_1, X_2, \cdots, X_n\}$ 的分布函数为
$\begin{aligned} F_Y(y) &=P\left(\min \left\{X_1, X_2, \cdots, X_n\right\} \leqslant y\right) \\ &=1-P\left(\min \left\{X_1, X_2, \cdots, X_n\right\}>y\right) \\ &=1-P\left(X_1>y, X_2>y, \cdots, X_n>y\right) \\ &=1-P\left(X_1>y\right) P\left(X_2>y\right) \cdots P\left(X_n>y\right) \\ &=1-\prod_{i=1}^n\left[1-F_i(y)\right] . \end{aligned}$
(2) 将 $X_i$ 的共同分布函数 $F (x)$ 代人上式得
$\left.F_Y(y)=1 - [1-F(y)\right]^n .$
(3) $Y$ 的分布函数仍为上式, 密度函数可对上式关于 $y$ 求导得
$p_Y(y)=F_Y^{\prime}(y)=n[1-F(y)]^{n-1} p(y) .$
(4) 将 $\operatorname{Exp}(\lambda)$ 的分布函数和密度函数代入得
$\begin{gathered} F_Y(y)= \begin{cases}0, & y<0, \\ 1-\mathrm{e}^{-n\lambda y}, & y \geqslant 0 .\end{cases} \\ p_Y(y)= \begin{cases}0, & y<0, \\ n \lambda \mathrm{e}^{-n \lambda y}, & y \geqslant 0 .\end{cases} \end{gathered}$

3.3.3 连续场合的卷积公式

定理 3.3.1 设 $X$ 与 $Y$ 是两个相互独立的连续随机变量, 其密度函数分别为 $p_X(x)$ 和 $p_Y(y)$ , 则其和 $Z = X + Y$ 的密度函数为
$p_Z(z)=\int_{-\infty}^{\infty} p_X(z-y) p_Y(y) \mathrm{d} y=\int_{-\infty}^{\infty}p_X(x) p_Y(z-x) \mathrm{d} x .$

3.3.4 变量变换法

一、变量变换法
设二维随机变量 $(X, Y)$ 的联合密度函数为 $p (x, y)$ , 如果函数
$\left\{\begin{array}{l} u=g_1(x, y), \\ v=g_2(x, y) \end{array}\right.$
有连续偏导数, 且存在唯一的反函数
$\left\{\begin{array}{l} x=x(u, v), \\ y=y(u, v), \end{array}\right.$
其变换的雅可比行列式
$J=\frac{\partial(x, y)}{\partial(u, v)}=\left|\begin{array}{ll} \frac{\partial x}{\partial u} & \frac{\partial y}{\partial u} \\ \frac{\partial x}{\partial v} & \frac{\partial y}{\partial v} \end{array}\right|=\left(\frac{\partial(u, v)}{\partial(x, y)}\right)^{-1}=(| \begin{array}{ll} \frac{\partial u}{\partial x} & \frac{\partial u}{\partial y} \\ \frac{\partial v}{\partial x} & \frac{\partial v}{\partial y} \end{array}|)^{-1} \neq 0 .$
若
$\left\{\begin{array}{l} U=g_1(X, Y), \\ V=g_2(X, Y), \end{array}\right.$
则 $(U, V)$ 的联合密度函数为
$p (u, v) = p (x (u, v), y (u, v)) ∣ J ∣ .$

二、增补变量法
增补变量法实质上是变换法的一种应用: 为了求出二维连续随机变量 $(X$ , $Y)$ 的函数 $U = g (X, Y)$ 的密度函数, 增补一个新的随机变量 $V = h (X, Y)$ , 一般令 $V$ $= X$ 或 $V = Y$ . 先用变换法求出 $(U, V)$ 的联合密度函数 $p (u, v)$ , 再对 $p (u, v)$ 关于 $v$ 积分, 从而得出关于 $U$ 的边际密度函数.
下面我们以例子形式, 给出两个随机变量的积与商的公式.

例 3.3.11(积的公式)
设随机变量 $X$ 与 $Y$ 相互独立, 其密度函数分别为 $p_X(x)$ 和 $p_Y(y)$ . 则 $U = X Y$ 的密度函数为
$p_U(u)=\int_{-\infty}^{\infty} p_X\left(\frac{u}{v}\right) p_Y(v) \frac{1}{|v|} \mathrm{d} v .$
解记 $V = Y$ , 则 $\left\{\begin{array}{l}u=x y, \\ v=y\end{array}\right.$ 的反函数为 $\left\{\begin{array}{l}x=\frac{u}{v}, \\ y=v,\end{array}\right.$ 雅可比行列式为
$J=\left|\begin{array}{cc} \frac{1}{v} & -\frac{u}{v^2} \\ 0 & 1 \end{array}\right|=\frac{1}{v},$
所以 $(U, V)$ 的联合密度函数为
$v)=p_X\left(\frac{u}{v}\right) \cdot p_Y(v)|J|=p_X\left(\frac{u}{v}\right) p_Y(v) \frac{1}{|v|} .$
对 $p (u, v)$ 关于 $v$ 积分, 就可得 $U = X Y$ 的密度函数.
例 3.3.12(商的公式)
设随机变量 $X$ 与 $Y$ 相互独立, 其密度函数分别为 $p_X(x)$ 和 $p_Y(y)$ . 则 $U = X / Y$ 的密度函数为
$p_v(u)=\int_{-\infty}^{\infty} p_x(u v) p_y(v)|v| \mathrm{d} v .$
解记 $V = Y$ , 则 $\left\{\begin{array}{l}u=x / y, \\ v=y\end{array}\right.$ 的反函数为 $\left\{\begin{array}{l}x=u v, \\ y=v,\end{array}\right.$ 雅可比行列式为
$J=\left|\begin{array}{ll} v & u \\ 0 & 1 \end{array}\right|=v,$
所以 $(U, V)$ 的联合密度函数为
$v)=p_X(u v) \cdot p_Y(v)|J|=p(u v, v)|v| .$
对 $p (u, v)$ 关于 $v$ 积分, 就可得 $U = X / Y$ 的密度函数。

3.4 多维随机变量的特征数

3.4.1 多维随机变量函数的数学期望

定理 3.4.1 若二维随机变量 $(X, Y)$ 的分布用联合分布列 $P\left(X=x_i, Y=y_j\right)$ 或用联合密度函数 $p (x, y)$ 表示, 则 $Z = g (X, Y)$ 的数学期望为
$\begin{cases}\sum_i \sum_j g\left(x_i, y_j\right) P\left(X=x_i, Y=y_j\right), & \text { 在离散场合, } \\ \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) p(x, y) \mathrm{d} x \mathrm{~d} y, & \text { 在连续场合. }\end{cases}$

还要指出，在连续场合 (离散场合也类似)有:

当 $g (X, Y) = X$ 时, 可得 $X$ 的数学期望为
$E(X)=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} x p(x, y) \mathrm{d} x \mathrm{d} y=\int_{-\infty}^{\infty} x p_X(x) \mathrm{d} x .$
当 $g(X, Y)=(X-E(X))^2$ 时, 可得 $X$ 的方差为
$\begin{aligned} \operatorname{Var}(X) &=E(X-E(X))^2=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty}(x-E(X))^2 p(x, y) \mathrm{d} x \mathrm{d} y \\ &=\int_{-\infty}^{\infty}(x-E(X))^2 p_x(x) \mathrm{d} x . \end{aligned}$
类似地可给出 $Y$ 的数学期望与方差的公式.

3.4.2 数学期望与方差的运算性质

性质 3.4.1
设 $(X, Y)$ 是二维随机变量, 则有
$E (X + Y) = E (X) + E (Y) .$
这个性质还可推广到 $n$ 维随机变量场合, 即
$E\left(X_1+X_2+\cdots+X_n\right)=E\left(X_1\right)+E\left(X_2\right)+\cdots+E\left(X_n\right) .$
性质 3.4.2
若随机变量 $X$ 与 $Y$ 相互独立, 则有
$E (X Y) = E (X) E (Y) .$
在独立场合, 随机变量乘积的数学期望等于数学期望的乘积, 这个性质还可推广到 $n$ 维随机变量场合, 即若 $X_1, X_2, \cdots, X_n$ 相互独立, 则有
$E\left(X_1 X_2 \cdots X_n\right)=E\left(X_1\right) E\left(X_2\right) \cdots E\left(X_n\right) .$
性质 3.4.3
若随机变量 $X$ 与 $Y$ 相互独立, 则有
$\operatorname{Var}(X \pm Y)=\operatorname{Var}(X)+\operatorname{Var}(Y) .$

3.4.3 协方差

定义 3.4.1
设 $(X, Y)$ 是一个二维随机变量, 若 $E [(X - E (X)) (Y - E (Y))]$ 存在, 则称此数学期望为 $X$ 与 $Y$ 的协方差, 或称为 $X$ 与 $Y$ 的相关 (中心) 矩, 并记为
$\operatorname{Cov}(X, Y)=E[(X-E(X))(Y-E(Y))] .$
特别有 $\operatorname{Cov}(X, X)=\operatorname{Var}(X)$ .

当 $\operatorname{Cov}(X, Y)>0$ 时, 称 $X$ 与 $Y$ 正相关, 这时两个偏差 $(X - E (X))$ 与 $(Y -$ $E (Y))$ 有同时增加或同时减少的倾向.
当 $\operatorname{Cov}(X, Y)<0$ 时, 称 $X$ 与 $Y$ 负相关, 这时有 $X$ 增加而 $Y$ 减少的倾向, 或有 $Y$ 增加而 $X$ 椷少的倾向.
当 $\operatorname{Cov}(X, Y)=0$ 时, 称 $X$ 与 $Y$ 不相关. 这时可能由两类情况导致:一类是 $X$ 与 $Y$ 的取值毫无关联 (见性质 3.4.5), 另一类是 $X$ 与 $Y$ 间存有某种非线性关系.

性质 3. 4. 4
$\operatorname{Cov}(X, Y)=E(X Y)-E(X) E(Y)$ .

下面的性质表明: “不相关”是比“独立”更弱的一个概念.
性质 3.4.5
若随机变量 $X$ 与 $Y$ 相互独立, 则 $\operatorname{Cov}(X, Y)=0$ , 反之不然.

性质 3.4.6
对任意二维随机变量 $(X, Y)$ , 有
$\operatorname{Var}(X \pm Y)=\operatorname{Var}(X)+\operatorname{Var}(Y) \pm 2 \operatorname{Cov}(X, Y) .$
若 $X$ 与 $Y$ 不相关. 则 $\operatorname{Var}(X \pm Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)$

以上性质 3.4.6 还可以推广到更多个随机变量场合, 即对任意 $n$ 个随机变量 $X_1, X_2, \cdots, X_n$ , 有
$\operatorname{Var}\left(\sum_{i=1}^n X_i\right)=\sum_{i=1}^n \operatorname{Var}\left(X_i\right)+2 \sum_{i=1}^n \sum_{j=1}^{i-1} \operatorname{Cov}\left(X_i, X_j\right) .$

性质 3.4.7
协方差 $\operatorname{Cov}(X, Y)$ 的计算与 $X, Y$ 的次序无关, 即
$\operatorname{Cov}(X, Y)=\operatorname{Cov}(Y, X) .$

性质 3.4.8
任意随机变量 $X$ 与常数 $a$ 的协方差为零, 即
$\operatorname{Cov}(X, a)=0 .$

性质 3.4.9
对任意常数 $a, b$ , 有
$\operatorname{Cov}(a X, b Y)=a b \operatorname{Cov}(X, Y) .$

性质 3.4.10
设 $X, Y, Z$ 是任意三个随机变量, 则
$\operatorname{Cov}(X+Y, Z)=\operatorname{Cov}(X, Z)+\operatorname{Cov}(Y, Z) .$

3.4.4 相关系数

定义 3.4.2
设 $(X, Y)$ 是一个二维随机变量, 且 $\operatorname{Var}(X)=\sigma_X^2>0, \operatorname{Var}(Y)=$ $\sigma_Y^2>0$ . 则称
$\operatorname{Corr}(X, Y)=\frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X)} \sqrt{\operatorname{Var}(Y)}}=\frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y}$
为 $X$ 与 $Y$ 的(线性)相关系数.

相关系数的另一个解释是: 它是相应标准化变量的协方差. 若记 $X$ 与 $Y$ 的数学期望分别为 $\mu_x, \mu_Y$ ,其标准化变量为
$X^*=\frac{X-\mu_X}{\sigma_X}, \quad Y^*=\frac{Y-\mu_Y}{\sigma_Y},$
则有
$\operatorname{Cov}\left(X^*, Y^*\right)=\operatorname{Cov}\left(\frac{X-\mu_X}{\sigma_X}, \frac{Y-\mu_Y}{\sigma_Y}\right)=\frac{\operatorname{Cov}(X, Y)}{\sigma_X \sigma_Y}=\operatorname{Corr}(X, Y) .$

引理 3.4.1 施瓦茨 (Schwarz) 不等式) 对任意二维随机变量 $(X, Y)$ , 若 $X$ 与 $Y$ 的方差都存在, 且记 $\sigma_X^2=\operatorname{Var}(X), \sigma_Y^2=\operatorname{Var}(Y)$ , 则有
$[\operatorname{Cov}(X, Y)]^2 \leqslant \sigma_X^2 \sigma_\gamma^2 \text {. }$ .

性质 3. 4.11
$\leqslant \operatorname{Corr}(X, Y) \leqslant 1$ , 或 $|\operatorname{Corr}(X, Y)| \leqslant 1$ .

性质 3. 4.12
$\operatorname{Corr}(X, Y)=\pm 1$ 的充要条件是 $X$ 与 $Y$ 间几乎处处有线性关系, 即存在 $a(\neq 0)$ 与 $b$ , 使得
$P (Y = a X + b) = 1 .$
其中当 $\operatorname{Corr}(X, Y)=1$ 时, 有 $a > 0$ ; 当 $\operatorname{Corr}(X, Y)=-1$ 时, 有 $a < 0$ .

性质 3.4.13 在二维正态分布 $N\left(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho\right)$ 场合, 不相关与独立是等价的.

3.4.5 随机向量的数学期望向量与协方差矩阵

以下我们用矩阵形式给出 $n$ 维随机变量的数学期望与方差.
定义 3.4.3
记 $n$ 维随机向量为 $\boldsymbol{X}=\left(X_1, X_2, \cdots, X_n\right)^{\prime}$ , 若其每个分量的数学期望都存在,则称
$E(X)=\left(E\left(X_1\right), E\left(X_2\right), \cdots, E\left(X_n\right)\right)^{\prime}$
为 $n$ 维随机向量 $X$ 的数学期望向量, 简称为 $X$ 的数学期望, 而称
$\begin{aligned} & E\left[(\boldsymbol{X}-E(\boldsymbol{X}))(\boldsymbol{X}-\boldsymbol{E}(\boldsymbol{X}))^{\prime}\right] \\ =&\left(\begin{array}{cccc} \operatorname{Var}\left(X_1\right) & \operatorname{Cov}\left(X_1, X_2\right) & \cdots & \operatorname{Cov}\left(X_1, X_n\right) \\ \operatorname{Cov}\left(X_2, X_1\right) & \operatorname{Var}\left(X_2\right) & \cdots & \operatorname{Cov}\left(X_2, X_n\right) \\ \vdots & \vdots & & \vdots \\ \operatorname{Cov}\left(X_n, X_1\right) & \operatorname{Cov}\left(X_n, X_2\right) & \cdots & \operatorname{Var}\left(X_n\right) \end{array}\right) \end{aligned}$
为该随机向量的方差-协方差矩阵,简称协方差阵,记为 $\operatorname{Cov}(\boldsymbol{X})$ .

定理 3.4.2 $n$ 维随机向量的协方差矩阵 $\operatorname{Cov}(\boldsymbol{X})=\left(\operatorname{Cov}\left(X_i, X_j\right)\right)_{n \times n}$ 是一个对称的非负定矩阵.

3.5 条件分布与条件期望

3.5.1 条件分布

一、离散随机变量的条件分布
设二维离散随机变量 $(X, Y)$ 的联合分布列为
$p_{i j}=P\left(X=x_i, Y=y_j\right), \quad i=1,2, \cdots, \quad j=1,2, \cdots .$
定义 3.5.1
对一切使 $P\left(Y=y_j\right)=p_{ \cdot j}=\sum_{i=1}^{\infty} p_{i j}>0$ 的 $y_j$ , 称
$p_{i|j}=P\left(X=x_i \mid Y=y_j\right)=\frac{P\left(X=x_i, Y=y_j\right)}{P\left(Y=y_j\right)}=\frac{p_{i j}}{p_{\cdot j }}, \quad i=1,2, \cdots$
为给定 $Y=y_j$ 条件下 $X$ 的条件分布列.
Y同理。
定义 3.5.2
给定 $Y=y_j$ 条件下 $X$ 的条件分布函数为
$F\left(x \mid y_j\right)=\sum_{x_i \leqslant x} P\left(X=x_i \mid Y=y_j\right)=\sum_{x_i \leqslant x} P_{i| j},$
Y同理。
二、连续随机变量的条件分布
定义 3.5.3
对一切使 $p_Y(y)>0$ 的 $y$ , 给定 $Y = y$ 条件下 $X$ 的条件分布函数和条件密度函数分别为
$\begin{aligned} &F(x \mid y)=\int_{-\infty}^x \frac{p(u, y)}{p_Y(y)} \mathrm{d} u, \\ &p(x \mid y)=\frac{p(x, y)}{p_Y(y)} . \end{aligned}$
Y同理。

三、连续场合的全概率公式和贝叶斯公式
$\begin{aligned} &p(x, y)=p_X(x) p(y \mid x), \\ \end{aligned}$
再对 $p (x, y)$ 求边际密度函数, 就得全概率公式的密度函数形式:
$\begin{aligned} &p_Y(y)=\int_{-\infty}^{\infty} p_X(x) p(y \mid x) \mathrm{d} x, \\ \end{aligned}$
就得贝叶斯公式的密度函数形式:
$\mid y)=\frac{p_X(x) p(y \mid x)}{\int_{-\infty}^{\infty} p_X(x) p(y \mid x) \mathrm{d} x}。$

3.5.2 条件数学期望

定义 3.5.4
条件分布的数学期望(若存在)称为条件期望,其定义如下：
$\mid Y=y)=\left\{\begin{array}{cl}\sum_i x_i P\left(X=x_i \mid Y=y\right), & (X, Y) \text { 为二维离散随机变量, } \\ \int_{-\infty}^{\infty} x p(x \mid y) \mathrm{d} x, & (X, Y) \text { 为二维连续随机变量. }\end{array}\right.$
因为条件期望是条件分布的数学期望, 所以它具有数学期望的一切性质, 例如
$E\left(a_1 X_1+a_2 X_2 \mid Y=y\right)=a_1 E\left(X_1 \mid Y=y\right)+a_2 E\left(X_2 \mid Y=y\right) .$
其他性质在此不一一列举.

定理 3.5.1 (重期望公式) 设 $(X, Y)$ 是二维随机变量, 且 $E (X)$ 存在, 则
$\mid Y)) .$

重期望公式的具体使用如下:
(1) 如果 $Y$ 是一个离散随机变量, 则
$E(X)=\sum_j E\left(X \mid Y=y_j\right) P\left(Y=y_j\right) .$
(2) 如果 $Y$ 是一个连续随机变量,则
$E(X)=\int_{-\infty}^{\infty} E(X \mid Y=y) p_Y(y) \mathrm{d} y .$