目录
引言
数字特征是概率论的‘语言翻译器’——它将复杂的随机分布浓缩为数学期望、方差、协方差等直观数字。这些指标如同随机变量的‘DNA’,揭示其最核心的统计规律。本章将带你掌握这些关键工具,实现从概率分布到现实决策的跨越。
4 随机变量的数字特征
4.1 数学期望:分布的中心位置
定义(加权平均值)
类型 | 公式 |
---|---|
离散型 | E ( X ) = ∑ k x k p k E(X)=\sum_{k} x_k p_k E(X)=∑kxkpk |
连续型 | E ( X ) = ∫ − ∞ ∞ x f ( x ) d x E(X)=\int_{-\infty}^{\infty} x f(x) dx E(X)=∫−∞∞xf(x)dx |
定理
设 Y = g ( X ) Y = g(X) Y=g(X),其中 g ( ⋅ ) g(\cdot) g(⋅) 是一个实值函数, X X X 是一个随机变量。则 Y Y Y 的期望可直接通过 X X X 的分布来计算,无需先求 Y Y Y 的分布。
- 若 X X X 为离散型随机变量,则:
E ( Y ) = E ( g ( X ) ) = ∑ k g ( x k ) p k {E(Y) = E(g(X)) = \sum_{k} g(x_k) p_k} E(Y)=E(g(X))=k∑g(xk)pk
- 若 X X X 为连续型随机变量,其概率密度函数为 f ( x ) f(x) f(x),则:
E ( Y ) = E ( g ( X ) ) = ∫ − ∞ ∞ g ( x ) f ( x ) d x {E(Y) = E(g(X)) = \int_{-\infty}^{\infty} g(x) f(x)\, dx} E(Y)=E(g(X))=∫−∞∞g(x)f(x)dx
推广
设
X
X
X、
Y
Y
Y 是两个随机变量,具有联合概率分布。设
g
(
x
,
y
)
g(x, y)
g(x,y) 是一个实值函数,定义新的随机变量:
Z
=
g
(
X
,
Y
)
Z = g(X, Y)
Z=g(X,Y)
- 若 ( X , Y ) (X, Y) (X,Y) 是二维离散型随机变量,其联合概率质量函数为:
p
i
j
=
P
(
X
=
x
i
,
Y
=
y
j
)
p_{ij} = P(X = x_i, Y = y_j)
pij=P(X=xi,Y=yj)
则:
E
(
Z
)
=
E
(
g
(
X
,
Y
)
)
=
∑
i
∑
j
g
(
x
i
,
y
j
)
p
i
j
{E(Z) = E(g(X, Y)) = \sum_{i}\sum_{j} g(x_i, y_j)\, p_{ij}}
E(Z)=E(g(X,Y))=i∑j∑g(xi,yj)pij
- 若 ( X , Y ) (X, Y) (X,Y) 是二维连续型随机变量,其联合概率密度函数为 f ( x , y ) f(x, y) f(x,y),则:
E ( Z ) = E ( g ( X , Y ) ) = ∫ − ∞ ∞ ∫ − ∞ ∞ g ( x , y ) f ( x , y ) d x d y {E(Z) = E(g(X, Y)) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y)\, f(x, y)\, dx\, dy} E(Z)=E(g(X,Y))=∫−∞∞∫−∞∞g(x,y)f(x,y)dxdy
注:以上级数或积分要求绝对收敛,即 E ( ∣ X ∣ ) < ∞ E(|X|) < \infty E(∣X∣)<∞,否则期望不存在。
性质
- E ( c ) = c E(c) = c E(c)=c (常数期望为自身)
- E ( a X + b ) = a E ( X ) + b E(aX+b) = aE(X)+b E(aX+b)=aE(X)+b
- E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y) = E(X) + E(Y) E(X+Y)=E(X)+E(Y)
- 独立性特例:若 X , Y X,Y X,Y独立,则 E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)
4.2 方差:分布的离散程度
定义(偏离期望的平方均值)
D ( X ) = E [ ( X − E ( X ) ) 2 ] D(X) = E\left[(X-E(X))^2\right] D(X)=E[(X−E(X))2]
计算公式(更实用的形式)
D ( X ) = E ( X 2 ) − [ E ( X ) ] 2 D(X) = E(X^2) - [E(X)]^2 D(X)=E(X2)−[E(X)]2
性质
-
D ( c ) = 0 D(c) = 0 D(c)=0 (常数方差为0)
-
D ( a X + b ) = a 2 D ( X ) D(aX+b) = a^2D(X) D(aX+b)=a2D(X)
-
设 X X X、 Y Y Y 是两个随机变量,且期望存在,方差也存在。则 X + Y X + Y X+Y 的方差为:
D ( X + Y ) = D ( X ) + D ( Y ) + 2 Cov ( X , Y ) {D(X + Y) = D(X) + D(Y) + 2\,\text{Cov}(X, Y)} D(X+Y)=D(X)+D(Y)+2Cov(X,Y)
其中, Cov ( X , Y ) \text{Cov}(X, Y) Cov(X,Y) 是 X X X 与 Y Y Y 的协方差,定义为:
Cov ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] = E ( X Y ) − E ( X ) E ( Y ) \text{Cov}(X, Y) = E\left[(X - E(X))(Y - E(Y))\right] = E(XY) - E(X)E(Y) Cov(X,Y)=E[(X−E(X))(Y−E(Y))]=E(XY)−E(X)E(Y)
若X,Y相互独立,则
D ( X + Y ) = D ( X ) + D ( Y ) D(X + Y) = D(X) + D(Y) D(X+Y)=D(X)+D(Y) -
推广到线性组合:对任意常数 $ a, b $,有:
D ( a X + b Y ) = a 2 D ( X ) + b 2 D ( Y ) + 2 a b Cov ( X , Y ) D(aX + bY) = a^2 D(X) + b^2 D(Y) + 2ab\,\text{Cov}(X, Y) D(aX+bY)=a2D(X)+b2D(Y)+2abCov(X,Y) -
D ( X ) = 0 ↔ P ( X = E ( X ) ) = 1 D(X)=0\leftrightarrow P(X = E(X)) = 1 D(X)=0↔P(X=E(X))=1
- 含义:如果一个随机变量的方差为 0,那它就不是一个“真正的随机变量”,而是一个确定性的常数。
标准差
σ ( X ) = D ( X ) \sigma(X) = \sqrt{D(X)} σ(X)=D(X)
常见分布期望方差:
分布类型 | 参数 | 期望公式 | 方差公式 |
---|---|---|---|
二项分布 | B ( n , p ) B(n,p) B(n,p) | E ( X ) = n p E(X)=np E(X)=np | D ( X ) = n p ( 1 − p ) D(X)=np(1-p) D(X)=np(1−p) |
泊松分布 | π ( λ ) \pi(\lambda) π(λ) | E ( X ) = λ E(X)=\lambda E(X)=λ | D ( X ) = λ D(X)=\lambda D(X)=λ |
均匀分布 | U ( a , b ) U(a,b) U(a,b) | E ( X ) = a + b 2 E(X)=\frac{a+b}{2} E(X)=2a+b | D ( X ) = ( b − a ) 2 12 D(X)=\frac{(b-a)^2}{12} D(X)=12(b−a)2 |
正态分布 | N ( μ , σ 2 ) N(μ,σ^2) N(μ,σ2) | E ( X ) = μ E(X)=μ E(X)=μ | D ( X ) = σ 2 D(X)=σ^2 D(X)=σ2 |
指数分布 | E x p ( λ ) Exp(λ) Exp(λ) | E ( X ) = 1 λ E(X)=\frac{1}{λ} E(X)=λ1 | D ( X ) = 1 λ 2 D(X)=\frac{1}{λ^2} D(X)=λ21 |
4.3 协方差与相关系数:联合分布的关系度量
协方差
Cov
(
X
,
Y
)
=
E
[
(
X
−
E
(
X
)
)
(
Y
−
E
(
Y
)
)
]
\text{Cov}(X,Y) = E[(X-E(X))(Y-E(Y))]
Cov(X,Y)=E[(X−E(X))(Y−E(Y))]
计算式:
Cov
(
X
,
Y
)
=
E
(
X
Y
)
−
E
(
X
)
E
(
Y
)
\text{Cov}(X,Y) = E(XY) - E(X)E(Y)
Cov(X,Y)=E(XY)−E(X)E(Y)
性质
性质 | 描述 | 统计意义 |
---|---|---|
对称性 | Cov ( X , Y ) = Cov ( Y , X ) \text{Cov}(X, Y) = \text{Cov}(Y, X) Cov(X,Y)=Cov(Y,X) | 表明协方差不依赖变量顺序,反映两个变量之间的双向线性相关性 |
自协方差 | Cov ( X , X ) = D ( X ) \text{Cov}(X, X) = D(X) Cov(X,X)=D(X) | 协方差退化为方差,表示变量自身的波动程度 |
线性性 | Cov ( a X + b , c Y + d ) = a c ⋅ Cov ( X , Y ) \text{Cov}(aX + b, cY + d) = ac \cdot \text{Cov}(X, Y) Cov(aX+b,cY+d)=ac⋅Cov(X,Y) | 常数平移不影响协方差,缩放只与系数乘积有关,体现线性变换下的稳定性 |
可加性 | Cov ( X + Y , Z ) = Cov ( X , Z ) + Cov ( Y , Z ) \text{Cov}(X + Y, Z) = \text{Cov}(X, Z) + \text{Cov}(Y, Z) Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z) | 表明协方差在多个变量共同作用下具有可分解性,便于多变量相关性分析 |
相关系数(标准化协方差)
ρ X Y = Cov ( X , Y ) σ X σ Y ( − 1 ≤ ρ ≤ 1 ) \rho_{XY} = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y} \quad (-1 \leq \rho \leq 1) ρXY=σXσYCov(X,Y)(−1≤ρ≤1)
性质与意义
指标 | 性质 | 统计意义 |
---|---|---|
ρ X Y = 0 \rho_{XY}=0 ρXY=0 | 称为不相关 | 无线性关联(注意:未必独立) |
ρ X Y = 1 \rho_{XY}=1 ρXY=1 | 完全正相关 | Y = a X + b ( a > 0 ) Y=aX+b \ (a>0) Y=aX+b (a>0) |
ρ X Y = − 1 \rho_{XY}=-1 ρXY=−1 | 完全负相关 | Y = a X + b ( a < 0 ) Y=aX+b \ (a<0) Y=aX+b (a<0) |
关键区别:
- 独立 ⇒ 不相关( ρ = 0 \rho=0 ρ=0)
- 不相关 ⇏ 独立(除非是正态分布)
4.4 矩:分布形态的全面描述
矩的定义
- k阶原点矩: μ k ′ = E ( X k ) \mu_k'= E(X^k) μk′=E(Xk)
- k阶中心矩: μ k = E [ ( X − E ( X ) ) k ] \mu_k = E\left[(X-E(X))^k\right] μk=E[(X−E(X))k]
- k+l阶混合矩: μ k , l ′ = E ( X k Y l ) \mu'_{k,l} = E(X^k Y^l) μk,l′=E(XkYl)
- k+l阶中心混合矩: μ k , l = E [ ( X − E ( X ) ) k ( Y − E ( Y ) ) l ] \mu_{k,l} = E\left[(X - E(X))^k (Y - E(Y))^l\right] μk,l=E[(X−E(X))k(Y−E(Y))l]
常用矩的统计意义
阶数 | 名称 | 意义 |
---|---|---|
一阶原点矩 | 期望 | 分布中心位置 |
二阶中心矩 | 方差 | 数据离散程度 |
二阶混合中心矩 | 协方差 | X 和 Y 之间的线性相关性 |
三阶中心矩 | 偏度 | 分布对称性(左偏<0,右偏>0) |
四阶中心矩 | 峰度 | 分布陡峭度(越大越陡峭) |
4.5 协方差矩阵:多维随机变量的数字特征
定义(以二维为例)
Σ = [ D ( X ) Cov ( X , Y ) Cov ( Y , X ) D ( Y ) ] \mathbf{\Sigma} = \begin{bmatrix} D(X) & \text{Cov}(X,Y) \\ \text{Cov}(Y,X) & D(Y) \end{bmatrix} Σ=[D(X)Cov(Y,X)Cov(X,Y)D(Y)]
性质
- 对称性: Cov ( X , Y ) = Cov ( Y , X ) \text{Cov}(X,Y)=\text{Cov}(Y,X) Cov(X,Y)=Cov(Y,X)
- 半正定性:对任意向量 a \mathbf{a} a,有 a T Σ a ≥ 0 \mathbf{a}^T\mathbf{\Sigma}\mathbf{a} \geq 0 aTΣa≥0
应用场景:
- 投资组合风险分析
- 多元正态分布的参数表示
4.6 切比雪夫不等式:方差的实际应用
定理(概率边界估计)
P ( ∣ X − E ( X ) ∣ ≥ ε ) ≤ D ( X ) ε 2 P(|X-E(X)| \geq \varepsilon) \leq \frac{D(X)}{\varepsilon^2} P(∣X−E(X)∣≥ε)≤ε2D(X)
应用示例:
已知某零件寿命
E
(
X
)
=
5
E(X)=5
E(X)=5年,
D
(
X
)
=
1
D(X)=1
D(X)=1年²,则:
P
(
∣
X
−
5
∣
≥
2
)
≤
1
4
=
25
%
P(|X-5| \geq 2) \leq \frac{1}{4} = 25\%
P(∣X−5∣≥2)≤41=25%
→ 至少有75%的零件寿命在3-7年之间