第四章:随机变量的数字特征和特征函数
在前几章的学习中我们已经知道, 如果掌握了某个随机变量的分布函数, 即意味着掌握了它的全部统计特性. 在实际问题中, 一方面求出分布函数往往不是一件容易的事情, 另一方面我们在解决实际问题时只需要少数某些特征即可. 因此, 我们还需要用某些数字刻画随机变量的某些特征. 我们称这样的描述随机变量某种特征的量为 随机变量的数字特征. 它的存在意义是: 利用随机变量的数字特征, 我们可以简化计算, 并且避免求出概率分布.
在本章中, 我们将介绍一些常用的数字特征: 数学期望, 方差, 协方差, 矩, 相关系数.
数学期望
1. 随机变量的数学期望
设
X
X
X 为离散型随机变量, 其分布列为
P
(
X
=
x
i
)
=
p
i
,
i
=
1
,
2
,
⋯
.
P(X = x_{i}) = p_{i}, ~~ i = 1, 2, \cdots.
P(X=xi)=pi, i=1,2,⋯.
若
∑
i
=
0
∞
∣
X
i
∣
p
i
⩽
∞
\sum_{i = 0}^{\infty}|X_{i}|p_{i}\leqslant \infty
i=0∑∞∣Xi∣pi⩽∞
记
E
X
=
∑
i
=
0
∞
x
i
p
i
.
EX = \sum_{i = 0}^{\infty}x_{i}p_{i}.
EX=i=0∑∞xipi.
且称
E
X
EX
EX 为
X
X
X 的 数学期望.
设 X X X 为连续型随机变量. 其密度函数为 p ( x ) p(x) p(x). 若有:
∫ − ∞ + ∞ ∣ x ∣ p ( x ) d x < ∞ \int_{-\infty}^{+\infty}|x|p(x)dx < \infty ∫−∞+∞∣x∣p(x)dx<∞
记
E X = ∫ − ∞ + ∞ x p ( x ) d x . EX = \int_{-\infty}^{+\infty}xp(x)dx. EX=∫−∞+∞xp(x)dx.
且称 E X EX EX 为 X X X 的 数学期望.
一些重要离散型随机变量分布的期望:
- (0-1)分布:
E
X
=
p
EX = p
EX=p
- 二项分布:
E
X
=
n
p
EX = np
EX=np
- Poisson 分布:
E
X
=
λ
EX = \lambda
EX=λ
一些重要连续型随机变量的数学期望:
- 均匀分布:
E
X
=
a
+
b
2
EX = \frac{a+b}{2}
EX=2a+b
- 指数分布:
E
X
=
1
λ
EX = \frac{1}{\lambda}
EX=λ1
- 正态分布:
E
X
=
μ
EX = \mu
EX=μ
注:
- 服从 Poisson 分布的随机变量的分布由其数学期望唯一决定.
- 对于连续型随机变量: 只需将分布列换为密度函数, 将求和运算改为积分, 即可定义其数学期望.
2. 随机变量函数的数学期望
随机变量函数的期望公式:
设 g ( x ) g(x) g(x) 为一个连续实函数:
-
若 X X X 为离散型随机变量, 分布列为 p i = P ( X = x i ) p_i = P(X = x_i) pi=P(X=xi) 且满足
∑ i = 1 ∞ ∣ g ( x i ) ∣ p i < ∞ \sum_{i = 1}^{\infty}|g(x_{i})|p_i < \infty i=1∑∞∣g(xi)∣pi<∞
则 g ( X ) g(X) g(X) 的数学期望存在:
E g ( X ) = ∑ i = 1 ∞ g ( x i ) p i . Eg(X) = \sum_{i = 1}^{\infty}g(x_{i})p_{i}. Eg(X)=i=1∑∞g(xi)pi. -
若 X X X 为连续型随机变量, 密度函数为 p ( x ) p(x) p(x) ,且
∫ − ∞ + ∞ ∣ g ( x ) ∣ p ( x ) d x < ∞ \int_{-\infty}^{+\infty}|g(x)|p(x)dx < \infty ∫−∞+∞∣g(x)∣p(x)dx<∞
则 g ( x ) g(x) g(x) 的数学期望存在:
E g ( x ) = ∫ − ∞ + ∞ g ( x ) p ( x ) d x . Eg(x) = \int_{-\infty}^{+\infty}g(x)p(x)dx. Eg(x)=∫−∞+∞g(x)p(x)dx.
设 g ( x , y ) g(x,y) g(x,y) 为一个 二元连续 的实函数:
- 若
X
,
Y
X,Y
X,Y 为离散型随机向量, 联合分布列为
p
i
j
=
P
(
X
=
x
i
,
Y
=
y
j
)
p_{ij} = P(X = x_i, Y = y_j)
pij=P(X=xi,Y=yj), 且
∑ i = 1 ∞ ∑ j = 1 ∞ ∣ g ( x i , y j ) ∣ p i j < ∞ \sum_{i = 1}^{\infty}\sum_{j = 1}^{\infty}|g(x_i,y_j)|p_{ij} < \infty i=1∑∞j=1∑∞∣g(xi,yj)∣pij<∞
则 g ( X , Y ) g(X,Y) g(X,Y) 的数学期望存在:
E g ( X , Y ) = ∑ i = 1 ∞ ∑ j = 1 ∞ g ( x i , y j ) p i j . Eg(X,Y) = \sum_{i = 1}^{\infty}\sum_{j = 1}^{\infty}g(x_i,y_j)p_{ij}. Eg(X,Y)=i=1∑∞j=1∑∞g(xi,yj)pij. - 若
(
X
,
Y
)
(X,Y)
(X,Y) 为连续型随机向量, 密度函数为
p
(
x
,
y
)
p(x,y)
p(x,y), 且
∫ − ∞ ∞ ∫ − ∞ ∞ ∣ g ( x , y ) ∣ p ( x , y ) d x d y < ∞ \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}|g(x,y)|p(x,y)dxdy < \infty ∫−∞∞∫−∞∞∣g(x,y)∣p(x,y)dxdy<∞
则 g ( X , Y ) g(X,Y) g(X,Y) 的数学期望存在:
E g ( X , Y ) = ∫ − ∞ ∞ ∫ − ∞ ∞ g ( x , y ) p ( x , y ) d x d y . Eg(X,Y) = \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(x,y)p(x,y)dxdy. Eg(X,Y)=∫−∞∞∫−∞∞g(x,y)p(x,y)dxdy.
显然, 从连续型随机变量的数学期望定义可知: 数学期望的计算本质上是积分运算.下面, 给出数学期望的一些基本性质:
-
E
C
=
C
EC = C
EC=C.
-
E
(
C
X
)
=
C
E
X
E(CX) = CEX
E(CX)=CEX.
- 若
E
X
,
E
Y
EX, EY
EX,EY 存在, 则
E
(
X
+
Y
)
=
E
(
X
)
+
E
(
Y
)
E(X+Y) = E(X) + E(Y)
E(X+Y)=E(X)+E(Y).
- 若
X
X
X 与
Y
Y
Y 独立,
E
X
,
E
Y
EX, EY
EX,EY 存在, 则
E
(
X
Y
)
=
E
X
⋅
E
Y
E(XY) = EX\cdot EY
E(XY)=EX⋅EY.
- 若 X ⩾ 0 X \geqslant 0 X⩾0, 则 E X ⩾ 0 ⇒ X ⩾ Y , E X ⩾ E Y . EX \geqslant 0 \Rightarrow X\geqslant Y, EX \geqslant EY. EX⩾0⇒X⩾Y,EX⩾EY.
- 若 X , Y X,Y X,Y 同分布,则 E X = E Y . EX = EY. EX=EY.
注:
- 和的期望 = 期望的和:不要求独立性.
- 积的期望 = 期望的积:前提是两个随机变量相互独立, 反之未必成立!
方差和矩
一个随机变量的数学期望所刻画的是其取值的集中趋势, 而方差所刻画的是它与均值之间的离散程度.
1. 方差的定义和性质
设 X X X 为随机变量, 若 E ( X − E X ) 2 E(X - EX)^2 E(X−EX)2 存在, 称其为随机变量 X X X 的 方差, 记为 D X DX DX. 方差的算数平方根称为随机变量的 标准差.
注:
- 计算方差所得到的值必非负.
- 常用该式计算方差:
D
X
=
E
X
2
−
(
E
X
)
2
DX = EX^2 - (EX)^2
DX=EX2−(EX)2 (平方的期望减去期望的平方).
一些重要离散型随机变量分布的方差:
- (0-1)分布:
D
X
=
p
(
1
−
p
)
DX = p(1-p)
DX=p(1−p)
- 二项分布:
D
X
=
n
p
(
1
−
p
)
DX = np(1-p)
DX=np(1−p)
- Poisson 分布:
D
X
=
λ
DX = \lambda
DX=λ
由此可见: Poisson 分布中的参数与期望和方差相等!
一些重要连续型随机变量的方差:
- 均匀分布:
E
X
=
(
b
−
a
)
2
12
EX = \frac{(b-a)^2}{12}
EX=12(b−a)2
- 指数分布:
E
X
=
1
λ
2
EX = \frac{1}{\lambda^2}
EX=λ21
- 正态分布:
E
X
=
σ
2
EX = \sigma^2
EX=σ2
下面给出方差的一些性质:
-
D
C
=
0
DC = 0
DC=0
-
D
(
C
X
)
=
C
2
D
X
D(CX) =C^2DX
D(CX)=C2DX
-
D
(
X
+
C
)
=
D
X
D(X+C) = DX
D(X+C)=DX
- 若
X
,
Y
X,Y
X,Y 相互独立, 则
D
(
X
+
Y
)
=
D
X
+
D
Y
D(X+Y) = DX + DY
D(X+Y)=DX+DY.
-
D
X
=
E
(
X
−
E
X
)
2
⩽
E
(
X
−
C
)
2
DX = E(X-EX)^2 \leqslant E(X-C)^2
DX=E(X−EX)2⩽E(X−C)2.
性质 5 的概率意义是:随机变量关于任何一个常数的偏差程度都不会小于其和方差之间的偏差程度.
2. 矩
比数学期望和方差更为一般的数字特征是矩,其中最常用的是原点矩和中心矩. 实际上, 数学期望和方差都是矩的特例.
设
X
X
X 为随机变量,
k
k
k 为某个正整数:
- 若
E
X
k
EX^k
EXk 存在,称其为
X
X
X 的
k
k
k 阶原点矩, 记为
α
k
\alpha_{k}
αk.
- 若
E
∣
X
k
∣
E|X^k|
E∣Xk∣ 存在,称其为
X
X
X 的
k
k
k 阶绝对原点矩, 记为
ν
k
\nu_{k}
νk.
- 若
∣
E
X
k
∣
|EX^k|
∣EXk∣ 存在,称其为
X
X
X 的
k
k
k 阶中心矩, 记为
μ
k
\mu_{k}
μk.
- 若
E
|
X
−
E
X
|
k
E|X-EX|^k
E|X−EX|k 存在,称其为
X
X
X 的
k
k
k 阶绝对中心矩, 记为
β
k
\beta_{k}
βk.
3. 常用概率不等式
- Markov 不等式:
若随机变量 X X X 的 k k k 阶绝对原点矩 E ∣ X ∣ k E|X|^k E∣X∣k 存在, 则对任意 ϵ > 0 \epsilon > 0 ϵ>0, 有:
P ( ∣ X ∣ ⩾ ϵ ) ⩽ E ∣ X ∣ k ϵ k . P(|X|\geqslant \epsilon) \leqslant \frac{E|X|^k}{\epsilon^k}. P(∣X∣⩾ϵ)⩽ϵkE∣X∣k.
Proof:
∀ ϵ > 0 \forall \epsilon > 0 ∀ϵ>0, 则 { ∣ X ∣ ⩾ ϵ } \{|X|\geqslant \epsilon\} {∣X∣⩾ϵ} 为一个随机事件, 记为 A A A. 令:
{ 1 若 A 发 生 0 若 A 不 发 生 \begin{cases}1 ~~~ 若 A 发生 \\ 0 ~~~ 若 A 不发生 \end{cases} {1 若A发生0 若A不发生
则 I A I_A IA 为随机变量,且
I A ⩽ ∣ X k ∣ ϵ k I_A \leqslant \frac{|X^k|}{\epsilon^k} IA⩽ϵk∣Xk∣
从而
E ( I A ) ⩽ E ( ∣ X k ∣ ϵ k ) = E ∣ X k ∣ ϵ k . E(I_A) \leqslant E(\frac{|X^k|}{\epsilon^k}) = \frac{E|X^k|}{\epsilon^k}. E(IA)⩽E(ϵk∣Xk∣)=ϵkE∣Xk∣.
又有
E ( I A ) = P ( A ) = P ( ∣ X ∣ ⩾ ϵ ) E(I_A) = P(A) = P(|X|\geqslant \epsilon) E(IA)=P(A)=P(∣X∣⩾ϵ)
故不等式得证. ■ \blacksquare ■
- Chebyshev 不等式
若随机变量 X X X 的方差 D X DX DX 存在, 则对任意 ϵ > 0 \epsilon > 0 ϵ>0, 有:
P ( ∣ X − E X ∣ ⩾ ϵ ) ⩽ D X ϵ 2 . P(|X - EX| \geqslant \epsilon) \leqslant \frac{DX}{\epsilon^2}. P(∣X−EX∣⩾ϵ)⩽ϵ2DX.
或等价地:
P ( ∣ X − E X ∣ < ϵ ) > 1 − D X ϵ 2 . P(|X-EX| < \epsilon) > 1-\frac{DX}{\epsilon^2}. P(∣X−EX∣<ϵ)>1−ϵ2DX.
随机向量的数字特征
对于随机向量, 除了需要讨论各分量的数学期望和方差以外, 我们还需要讨论表示各个分量之间联系程度的数字特征: 协方差和相关系数.
1. 协方差 cov
和相关系数
设
X
,
Y
X,Y
X,Y 为任两个随机变量, 且
E
X
,
E
Y
EX,EY
EX,EY 存在. 若
E
[
(
X
−
E
X
)
(
Y
−
E
Y
)
]
E[(X-EX)(Y-EY)]
E[(X−EX)(Y−EY)] 存在, 则称其为
X
,
Y
X,Y
X,Y 的协方差, 记为
C
o
v
(
X
,
Y
)
Cov(X,Y)
Cov(X,Y), 即
C
o
v
(
X
,
Y
)
=
E
[
(
X
−
E
X
)
(
Y
−
E
Y
)
]
=
E
X
Y
−
E
X
⋅
E
Y
.
Cov(X,Y) = E[(X-EX)(Y-EY)] = EXY - EX\cdot EY.
Cov(X,Y)=E[(X−EX)(Y−EY)]=EXY−EX⋅EY.
特别地: DX = Cov(X,X): 方差是一个特殊的协方差, 是随机变量自身之间的协方差.
下面给出协方差的一些性质:
- Cov(X,Y) = Cov(Y,X)
- Cov(aX,bY) = abCov(X,Y)
- Cov(X_1 + X_2, Y) = Cov(X_1,Y) + Cov(X_2,Y)
-
X
,
Y
X,Y
X,Y 相互独立
→
C
o
v
(
X
,
Y
)
=
0
\rightarrow Cov(X,Y) = 0
→Cov(X,Y)=0, 反之不一定成立!
-
C
o
v
(
X
,
Y
)
2
⩽
D
X
⋅
D
Y
{Cov(X,Y)}^2\leqslant DX\cdot DY
Cov(X,Y)2⩽DX⋅DY
设
X
,
Y
X,Y
X,Y 为任意两个随机变量. 若
D
X
,
D
Y
DX,DY
DX,DY 均存在且不为零, 称:
ρ
X
,
Y
=
C
o
v
(
X
,
Y
)
D
X
D
Y
\rho_{X,Y} = \frac{Cov(X,Y)}{\sqrt{DX}\sqrt{DY}}
ρX,Y=DXDYCov(X,Y)
为
X
,
Y
X,Y
X,Y 的相关系数, 简记为
ρ
\rho
ρ.
显见:
-
X
,
Y
X,Y
X,Y 不相关
⇔
ρ
=
0
\Leftrightarrow \rho = 0
⇔ρ=0.
- 若
X
,
Y
X,Y
X,Y 不相关, 则有
D
(
X
+
Y
)
=
D
(
X
)
+
D
(
Y
)
D(X+Y) = D(X) + D(Y)
D(X+Y)=D(X)+D(Y).
- 相关系数是刻画
X
,
Y
X,Y
X,Y 之间 线性关系强弱 的数字特征, 其绝对值的大小指示了两个随机变量间的线性关系.
下面给出相关系数的一些性质:
-
∣
ρ
∣
⩽
1
,
0
⩽
ρ
⩽
1
|\rho| \leqslant 1, 0\leqslant \rho \leqslant 1
∣ρ∣⩽1,0⩽ρ⩽1, 称
X
,
Y
X,Y
X,Y 正相关, 否则称为相关.
-
∣
ρ
=
1
∣
⇔
∃
a
(
a
≠
0
)
,
b
,
s
.
t
.
P
(
Y
=
a
X
+
b
)
=
1
|\rho = 1| \Leftrightarrow \exist a (a \neq 0),b, s.t. P(Y = aX + b) = 1
∣ρ=1∣⇔∃a(a=0),b,s.t.P(Y=aX+b)=1
- 若
X
,
Y
X,Y
X,Y 相互独立, 且方差均大于零,则
ρ
=
0
\rho = 0
ρ=0, 反之不一定成立!
2. 随机向量的均值向量和协方差矩阵
将
n
n
n 维随机向量
(
X
1
,
X
2
,
⋯
,
X
n
)
(X_1,X_2,\cdots, X_n)
(X1,X2,⋯,Xn) 写成列向量形式, 并记为
X
\mathbf{X}
X , 也就是:
X
=
(
X
1
,
X
2
,
⋯
,
X
n
)
T
\mathbf{X} = (X_1,X_2,\cdots, X_n)^{T}
X=(X1,X2,⋯,Xn)T.
设
X
=
(
X
1
,
X
2
,
⋯
,
X
n
)
T
\mathbf{X} = (X_1,X_2,\cdots, X_n)^{T}
X=(X1,X2,⋯,Xn)T 为一
n
n
n 维随机向量,
E
X
i
EX_i
EXi 均存在,则称
(
E
X
1
,
⋯
,
E
X
n
)
T
(EX_1,\cdots, EX_n)^{T}
(EX1,⋯,EXn)T 为 随机向量
X
\mathbf{X}
X 的数学期望, 记为
E
X
=
(
E
X
1
,
⋯
,
E
X
n
)
T
.
E\mathbf{X} = (EX_1,\cdots, EX_n)^{T}.
EX=(EX1,⋯,EXn)T.
若
E
X
i
2
EX_{i}^2
EXi2 均存在, 则称矩阵
V
a
r
(
X
)
=
[
b
11
b
12
⋯
b
1
n
b
21
b
22
⋯
b
2
n
⋮
⋮
⋮
b
n
1
b
n
2
⋯
b
n
n
]
Var(X) = \begin{bmatrix} b_{11} & b_{12} & \cdots & b_{1n} \\ b_{21} & b_{22} & \cdots & b_{2n} \\ \vdots & \vdots & & \vdots \\ b_{n1} & b_{n2} & \cdots & b_{nn} \end{bmatrix}
Var(X)=⎣⎢⎢⎢⎡b11b21⋮bn1b12b22⋮bn2⋯⋯⋯b1nb2n⋮bnn⎦⎥⎥⎥⎤
为 随机向量 X = ( X 1 , X 2 , ⋯ , X n ) T \mathbf{X} = (X_1,X_2,\cdots, X_n)^{T} X=(X1,X2,⋯,Xn)T 的协方差矩阵, 其中 b i j = C o v ( X i , Y j ) b_{ij} = Cov(X_i,Y_j) bij=Cov(Xi,Yj). 一般将 V a r ( X ) Var(X) Var(X) 简记为 B \mathbf{B} B.
下面给出协方差矩阵的一些性质:
-
B
=
B
T
\mathbf{B} = \mathbf{B}^{T}
B=BT
- 非负定性
设 X = ( X 1 , X 2 , ⋯ , X m ) T , Y = ( Y 1 , Y 2 , ⋯ , Y n ) T \mathbf{X} = (X_1, X_2, \cdots, X_m)^T, \mathbf{Y} = (Y_1, Y_2, \cdots, Y_n)^T X=(X1,X2,⋯,Xm)T,Y=(Y1,Y2,⋯,Yn)T. 若 E X i 2 , E Y j 2 EX^2_i, EY^2_j EXi2,EYj2 均存在, 称矩阵 C o v ( X , Y ) = ( b i j ) m ∗ n Cov(\mathbf{X},\mathbf{Y}) = (b_{ij})_{m*n} Cov(X,Y)=(bij)m∗n 为 m m m 维随机向量 X \mathbf{X} X 和 n n n 维随机向量 Y \mathbf{Y} Y 的协方差矩阵, 其中 b i j = C o v ( X i , Y j ) . b_{ij} = Cov(X_i,Y_j). bij=Cov(Xi,Yj).
均值向量
E
X
E\mathbf{X}
EX 和协方差矩阵
V
a
r
(
X
)
,
C
o
v
(
X
,
Y
)
Var(\mathbf{X}),Cov(\mathbf{X},\mathbf{Y})
Var(X),Cov(X,Y) 关于随机向量的线性变换有以下性质:
1.
E
(
X
+
a
)
=
E
X
+
a
E(\mathbf{X+a}) = E\mathbf{X} + \mathbf{a}
E(X+a)=EX+a
2.
E
(
A
X
+
B
Y
)
=
A
E
X
=
B
E
Y
E(\mathbf{AX+BY}) = \mathbf{A}E\mathbf{X} = \mathbf{B}E\mathbf{Y}
E(AX+BY)=AEX=BEY
3.
V
a
r
(
A
X
)
=
A
V
a
r
(
X
)
A
T
Var(\mathbf{AX}) = \mathbf{A}Var(\mathbf{X})\mathbf{A}^{T}
Var(AX)=AVar(X)AT
4.
C
o
v
(
A
X
,
B
Y
)
=
A
C
o
v
(
X
,
Y
)
B
T
Cov(\mathbf{AX},\mathbf{BY}) = \mathbf{A}Cov(\mathbf{X}, \mathbf{Y})\mathbf{B}^{T}
Cov(AX,BY)=ACov(X,Y)BT.
3. 条件数学期望
在第三章中, 我们
研究和讨论了条件分布函数与条件概率的概念. 相应的, 我们也可以引入条件数学期望的概念:
对条件分布函数
F
(
y
∣
x
)
F(y|x)
F(y∣x), 若
∫
−
∞
+
∞
∣
y
∣
d
F
(
y
∣
x
)
<
∞
\int_{-\infty}^{+\infty}|y|dF(y|x) < \infty
∫−∞+∞∣y∣dF(y∣x)<∞
记
E
(
Y
∣
x
)
=
∫
−
∞
+
∞
y
d
F
(
y
∣
x
)
E(Y|x) = \int_{-\infty}^{+\infty}ydF(y|x)
E(Y∣x)=∫−∞+∞ydF(y∣x)
称
E
(
Y
∣
x
)
E(Y|x)
E(Y∣x) 为在
X
=
x
X = x
X=x 条件下
Y
Y
Y 的条件数学期望.
同理, 我们也可以定义 E ( X ∣ y ) E(X|y) E(X∣y): 在 Y = y Y = y Y=y 条件下 X X X 的条件数学期望.
类似地, 若
(
X
,
Y
)
(X,Y)
(X,Y) 为离散型随机变量, 其联合分布列为
p
i
j
=
P
(
X
=
x
i
,
Y
=
y
j
)
p_{ij} = P(X = x_i, Y =y_j)
pij=P(X=xi,Y=yj), 条件分布列为
p
j
∣
i
=
P
(
Y
=
y
j
∣
X
=
x
i
)
p_{j|i} = P(Y = y_j|X = x_i)
pj∣i=P(Y=yj∣X=xi) 和
p
i
∣
j
=
P
(
X
=
x
i
∣
Y
=
y
j
)
p_{i|j} = P(X = x_i|Y = y_j)
pi∣j=P(X=xi∣Y=yj), 则有
{
E
(
Y
∣
x
i
)
=
∑
j
=
1
∞
y
j
p
j
∣
i
=
∑
j
=
1
∞
y
j
p
i
j
p
i
⋅
E
(
X
∣
y
j
)
=
∑
i
=
1
∞
x
i
p
i
∣
j
=
∑
i
=
1
∞
x
i
x
i
p
⋅
j
\begin{cases}E(Y|x_i) = \sum_{j = 1}^{\infty}y_jp_{j|i} = \sum_{j = 1}^{\infty}y_j\frac{p_{ij}}{p_i\cdot} \\ \\ E(X|y_{j}) = \sum_{i = 1}^{\infty}x_{i}p_{i|j} = \sum_{i = 1}^{\infty}x_{i}\frac{x_i}{p_{\cdot j}}\end{cases}
⎩⎪⎨⎪⎧E(Y∣xi)=∑j=1∞yjpj∣i=∑j=1∞yjpi⋅pijE(X∣yj)=∑i=1∞xipi∣j=∑i=1∞xip⋅jxi
相应地, 若
(
X
,
Y
)
(X,Y)
(X,Y) 为连续型随机变量,其联合密度函数为
p
(
x
,
y
)
p(x,y)
p(x,y), 条件密度函数为
p
(
x
∣
y
)
p(x|y)
p(x∣y) 和
p
(
y
∣
x
)
p(y|x)
p(y∣x), 则有
{
E
(
Y
∣
x
)
=
∫
−
∞
∞
y
p
(
y
∣
x
)
d
y
=
∫
−
∞
∞
y
p
(
x
,
y
)
d
y
∫
−
∞
∞
p
(
x
,
y
)
d
y
E
(
X
∣
y
)
=
∫
−
∞
∞
x
p
(
x
∣
y
)
d
x
=
∫
−
∞
∞
x
p
(
x
,
y
)
d
x
∫
−
∞
∞
p
(
x
,
y
)
d
x
\begin{cases}E(Y|x) = \int_{-\infty}^{\infty}yp(y|x)dy = \frac{\int_{-\infty}^{\infty}yp(x,y)dy}{\int_{-\infty}^{\infty}p(x,y)dy} \\ \\ E(X|y) = \int_{-\infty}^{\infty}xp(x|y)dx = \frac{\int_{-\infty}^{\infty}xp(x,y)dx}{\int_{-\infty}^{\infty}p(x,y)dx} \end{cases}
⎩⎪⎪⎨⎪⎪⎧E(Y∣x)=∫−∞∞yp(y∣x)dy=∫−∞∞p(x,y)dy∫−∞∞yp(x,y)dyE(X∣y)=∫−∞∞xp(x∣y)dx=∫−∞∞p(x,y)dx∫−∞∞xp(x,y)dx
下面, 不加证明地给出关于随机变量函数的条件数学期望公式:
设 g ( x ) g(x) g(x) 为 R \mathbb{R} R 上的连续函数. 若
∫ − ∞ + ∞ ∣ g ( x ) ∣ d F ( x ∣ y ) < ∞ \int_{-\infty}^{+\infty}|g(x)|dF(x|y) < \infty ∫−∞+∞∣g(x)∣dF(x∣y)<∞
∫
−
∞
∞
∣
g
(
y
)
∣
d
F
(
y
∣
x
)
<
∞
\int_{-\infty}^{\infty}|g(y)|dF(y|x) < \infty
∫−∞∞∣g(y)∣dF(y∣x)<∞
则有
{
E
(
g
(
X
)
∣
y
)
=
∫
−
∞
∞
g
(
x
)
d
F
(
x
∣
y
)
E
(
g
(
Y
)
∣
x
)
=
∫
−
∞
∞
g
(
y
)
d
F
(
y
∣
x
)
\begin{cases}E(g(X)|y) = \int_{-\infty}^{\infty}g(x)dF(x|y) \\ \\ E(g(Y)|x) = \int_{-\infty}^{\infty}g(y)dF(y|x) \end{cases}
⎩⎪⎨⎪⎧E(g(X)∣y)=∫−∞∞g(x)dF(x∣y)E(g(Y)∣x)=∫−∞∞g(y)dF(y∣x)
实际上, 条件数学期望 E ( X ∣ y ) E(X|y) E(X∣y) 为 y y y 的普通函数,若将其中的 y y y 用随机变量 Y Y Y 代替,并将 E ( X ∣ y ) E(X|y) E(X∣y) 改写为 E ( X ∣ Y ) E(X|Y) E(X∣Y), 则它就是一个关于随机变量 Y Y Y 的一个函数, 一般地, 也是一个随机变量.
称 E ( X ∣ Y ) E(X|Y) E(X∣Y) 为随机变量 X X X 关于 Y Y Y 的条件数学期望, 类似地也可定义随机变量 Y Y Y 关于 X X X 的条件数学期望 E ( Y ∣ X ) E(Y|X) E(Y∣X).
下面, 给出一些条件数学期望的性质:
- 当
X
,
Y
X,Y
X,Y 相互独立时,
E
(
X
∣
Y
)
=
E
(
X
)
E(X|Y) = E(X)
E(X∣Y)=E(X).
-
E
X
=
E
[
E
(
x
∣
Y
)
]
EX = E[E(x|Y)]
EX=E[E(x∣Y)].
-
E
[
g
(
Y
)
⋅
X
∣
Y
]
=
g
(
Y
)
⋅
E
(
X
∣
Y
)
E[g(Y)\cdot X|Y] = g(Y)\cdot E(X|Y)
E[g(Y)⋅X∣Y]=g(Y)⋅E(X∣Y).
-
E
[
g
(
Y
)
⋅
X
]
=
E
[
g
(
Y
)
⋅
E
(
X
∣
Y
)
]
E[g(Y)\cdot X] = E[g(Y)\cdot E(X|Y)]
E[g(Y)⋅X]=E[g(Y)⋅E(X∣Y)].
-
E
(
C
∣
Y
)
=
C
E(C|Y) = C
E(C∣Y)=C.
-
E
[
g
(
Y
)
∣
Y
]
=
g
(
Y
)
E[g(Y)|Y] = g(Y)
E[g(Y)∣Y]=g(Y).
-
E
[
(
a
X
+
b
Y
)
∣
Z
]
=
a
E
(
X
∣
Z
)
+
b
E
(
Y
∣
Z
)
E[(aX+bY)|Z] = aE(X|Z) + bE(Y|Z)
E[(aX+bY)∣Z]=aE(X∣Z)+bE(Y∣Z).
- 若
X
⩾
0
X \geqslant 0
X⩾0, 则
E
(
X
∣
Y
)
⩾
0
E(X|Y) \geqslant 0
E(X∣Y)⩾0.
-
E
[
X
−
E
(
X
∣
Y
)
]
2
⩽
E
[
X
−
g
(
Y
)
]
2
E[X-E(X|Y)]^2 \leqslant E[X-g(Y)]^2
E[X−E(X∣Y)]2⩽E[X−g(Y)]2.
随机变量的特征函数
在第三章中, 我们利用卷积公式求得了两个独立随机变量和的分布. 将这种情况推广到多个随机变量的情形时,不难发现此时计算难度会大大增加.为了解决这一问题, 在这一节中我们引入一个新工具: 特征函数. 它不仅是解决独立随机变量和的分布问题的一个有力工具,研究它也有利于我们对极限定理的研究和对矩的计算.
1.一元特征函数和性质
在讨论特征函数前, 我们先引入 “复随机变量和其数学期望”:
设 X , Y X,Y X,Y 是概率空间 ( Ω , F , p ) (\Omega, \mathscr{F},p) (Ω,F,p) 上的两个实随机变量,令 i = 1 i = \sqrt{1} i=1, 称 Z = X + i Y Z = X + iY Z=X+iY 为 ( Ω , F , p ) (\Omega, \mathscr{F},p) (Ω,F,p) 上的复随机变量. 若 E X , E Y EX, EY EX,EY 存在, 则称 E X + i E Y EX+iEY EX+iEY 为 复随机变量 Z Z Z 的数学期望, 即 E Z = E X + i E Y EZ = EX + iEY EZ=EX+iEY.
从以上定义我们可以看出, 对复随机变量的研究实际上就是对二维随机变量 ( X , Y ) (X,Y) (X,Y) 的研究. 在第二章内所建立的, 关于实随机变量的一系列结果自然对复随机变量也有平行的结论.
设
X
X
X 为随机变量,
F
(
X
)
F(X)
F(X) 为
X
X
X 的分布函数,称
ϕ
(
t
)
=
E
e
i
t
X
=
∫
−
∞
∞
e
i
t
x
d
F
(
x
)
,
−
∞
<
t
<
∞
\phi(t) = Ee^{itX} = \int_{-\infty}^{\infty}e^{itx}dF(x), ~~~-\infty < t < \infty
ϕ(t)=EeitX=∫−∞∞eitxdF(x), −∞<t<∞
为随机变量
X
X
X 的特征函数, 一般简记为
ϕ
X
(
t
)
\phi_{X}(t)
ϕX(t).
注:
由于的任何随机变量
X
X
X 和一切
t
t
t, 均有
E
(
e
i
t
X
)
=
E
(
c
o
s
t
X
)
=
i
E
(
s
i
n
t
X
)
E(e^{itX}) = E(costX) = iE(sintX)
E(eitX)=E(costX)=iE(sintX)
且
m
a
x
{
∣
c
o
s
(
t
X
)
∣
,
∣
s
i
n
(
t
X
)
∣
}
⩽
1
max\{|cos(tX)|,|sin(tX)|\} \leqslant 1
max{∣cos(tX)∣,∣sin(tX)∣}⩽1
故
E
c
o
s
(
t
X
)
,
E
s
i
n
(
t
X
)
Ecos(tX), Esin(tX)
Ecos(tX),Esin(tX) 均存在,故对
∀
t
∈
(
−
∞
,
+
∞
)
\forall t \in (-\infty, +\infty)
∀t∈(−∞,+∞),
E
e
i
t
X
Ee^{itX}
EeitX 均存在.也就是说, 任何随机变量的特征函数均存在.
在特征函数之前, 也有数学家定义过数种“母函数”, 但它们都具有共同的限制: 对某些特殊的随机变量无法适用.特征函数完美解决了这个问题.
由对于特征函数的定义, 我们可以得到下列结果:
-
若 X X X 为离散型随机变量, 其分布列为 p k = P { X = x k } p_k =P\{X = x_k\} pk=P{X=xk},则其特征函数为
ϕ ( t ) = ∑ k = 1 ∞ e i t x k p k . \phi(t) = \sum_{k = 1}^{\infty}e^{itx_k}p_k. ϕ(t)=k=1∑∞eitxkpk. -
若 X X X 为连续型随机变量, 其密度函数为 p ( x ) p(x) p(x), 其特征函数为
ϕ ( t ) = ∫ − ∞ ∞ e i t x p ( x ) d x \phi(t) = \int_{-\infty}^{\infty}e^{itx}p(x)dx ϕ(t)=∫−∞∞eitxp(x)dx
此时, 特征函数为密度函数的 Fourier 变换.下面给出一些常用随机变量分布的特征函数:
- (0,1)分布:
ϕ
(
t
)
=
p
e
i
t
+
(
1
−
p
)
\phi(t) = pe^{it}+(1-p)
ϕ(t)=peit+(1−p)
- 二项分布:
ϕ
(
t
)
=
(
p
e
i
t
+
(
1
−
p
)
)
n
\phi(t) = (pe^{it}+(1-p))^n
ϕ(t)=(peit+(1−p))n
- Poisson分布:
ϕ
(
t
)
=
e
λ
(
e
i
t
−
1
)
\phi(t) = e^{\lambda(e^{it}-1)}
ϕ(t)=eλ(eit−1)
- 指数分布:
ϕ
(
t
)
=
λ
(
λ
+
i
t
)
λ
2
+
t
2
\phi(t) = \frac{\lambda(\lambda+it)}{\lambda^2 + t^2}
ϕ(t)=λ2+t2λ(λ+it)
- 正态分布:
ϕ
(
t
)
=
e
i
μ
t
−
σ
2
t
2
2
\phi(t) = e^{i \mu t -\frac{\sigma^2t^2}{2}}
ϕ(t)=eiμt−2σ2t2
特征函数具以下性质:
- 有界性:
∣
ϕ
(
t
)
∣
⩽
ϕ
(
0
)
=
1
|\phi(t)|\leqslant \phi(0) = 1
∣ϕ(t)∣⩽ϕ(0)=1.
- 一直连续性:
ϕ
(
t
)
\phi(t)
ϕ(t) 在
(
−
∞
,
∞
)
(-\infty, \infty)
(−∞,∞) 上一致连续.
- 非负定性
-
ϕ
(
−
t
)
=
ϕ
(
t
)
‾
\phi(-t) = \overline{\phi(t)}
ϕ(−t)=ϕ(t)
- 设
Y
=
a
X
+
b
,
ϕ
Y
(
t
)
=
e
i
t
b
ϕ
X
(
a
t
)
Y = aX + b, \phi_{Y}(t) = e^{itb}\phi_X(at)
Y=aX+b,ϕY(t)=eitbϕX(at)
- 若随机变量
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots, X_n
X1,X2,⋯,Xn 相互独立, 则它们和的特征函数等于它们特征函数的积.
- 若
X
X
X 的
n
n
n 阶矩存在, 则它的特征函数
ϕ
(
t
)
\phi(t)
ϕ(t) 的
k
k
k 阶导数存在, 且
E X k = ϕ ( k ) ( 0 ) i k . EX^k = \frac{\phi^{(k)}(0)}{i^k}. EXk=ikϕ(k)(0).
- (0,1)分布:
ϕ
(
t
)
=
p
e
i
t
+
(
1
−
p
)
\phi(t) = pe^{it}+(1-p)
ϕ(t)=peit+(1−p)
特征函数和分布函数的对应关系体现在两方面:
-
特征函数和分布函数一一对应 (唯一性定理)
-
这种对应同时具有某种连续型 (连续性定理)
下面不加证明地给出下列结论: -
反演公式和唯一性定理:
设随机变量 X X X 的分布函数和特征函数分别为 F ( x ) F(x) F(x), ϕ ( t ) \phi(t) ϕ(t), 则对 F ( x ) F(x) F(x) 的任意连续点 x 1 , x 2 x_1,x_2 x1,x2, 有
F ( x 2 ) − F ( x 1 ) = 1 2 π ∫ − ∞ ∞ e − i t x 1 − e − i t x 2 i t ϕ ( t ) d t F(x_2) - F(x_1) =\frac{1}{2\pi}\int_{-\infty}^{\infty}\frac{e^{-itx_1} - e^{-itx_2}}{it}\phi(t)dt F(x2)−F(x1)=2π1∫−∞∞ite−itx1−e−itx2ϕ(t)dt
推论1:
随机变量 X X X 的分布函数与其特征函数一一对应.推论2:
设 X X X 为连续型随机变量, 其密度函数和特征函数分别为 p ( x ) p(x) p(x) ϕ ( t ) \phi(t) ϕ(t), 则
KaTeX parse error: Undefined control sequence: \- at position 28: …{1}{2\pi}\int_{\̲-̲infty}^{\infty}…这也就是说, 密度函数和特征函数也是一一对应的.实际上, 密度函数就是特征函数的 Fourier 逆变换.
-
连续性定理:
先给出弱收敛的定义:
对于分布函数列 { F n ( x ) } \{F_n(x)\} {Fn(x)}, 若存在 F ( x ) F(x) F(x) 使
lim n → ∞ F n ( x ) = F ( x ) \lim_{n \rightarrow \infty}F_n(x) = F(x) n→∞limFn(x)=F(x)
在 F ( x ) F(x) F(x) 的每一连续点上均成立, 称 F n ( x ) F_n(x) Fn(x) 弱收敛 于 F ( x ) F(x) F(x), 记为 F n ( x ) → W F ( x ) F_n(x)\overset{W}{\rightarrow} F(x) Fn(x)→WF(x).正极限定理:
设分布函数列 { F n ( x ) } \{F_n(x)\} {Fn(x)} 弱收敛于某一分布函数 F ( x ) F(x) F(x), 则相应的特征函数列 { ϕ n ( t ) } \{\phi_n(t)\} {ϕn(t)} 收敛于 F ( x ) F(x) F(x) 的特征函数 ϕ ( t ) \phi(t) ϕ(t), 且在 t t t 的任何一个有限区间内收敛是一致的.逆极限定理:
设特征函数列 { ϕ n ( t ) } \{\phi_n(t)\} {ϕn(t)} 收敛于某一函数 ϕ ( t ) \phi(t) ϕ(t), 且 ϕ ( t ) \phi(t) ϕ(t) 在 t = 0 t = 0 t=0 连续, 则相应的分布函数列 { F n ( x ) } \{F_n(x)\} {Fn(x)} 弱收敛于某一分布函数 F ( x ) F(x) F(x), 且 ϕ ( t ) \phi(t) ϕ(t) 为 F ( x ) F(x) F(x) 的特征函数.正,逆极限定理表述了分布函数和特征函数一一对应关系的“连续性”, 通常将它们合称为 连续性定理.
2. 多元特征函数
若随机向量
(
X
1
,
X
2
,
⋯
,
X
n
)
(X_1,X_2,\cdots,X_n)
(X1,X2,⋯,Xn) 的分布函数为
F
(
x
1
,
x
2
,
⋯
,
x
n
)
F(x_1,x_2,\cdots,x_n)
F(x1,x2,⋯,xn), 则类似于随机变量,定义其特征函数为
ϕ
(
t
1
,
t
2
,
⋯
,
t
n
)
=
∫
−
∞
∞
⋯
∫
−
∞
∞
e
i
(
t
1
x
1
+
⋯
+
t
n
x
n
)
d
F
(
x
1
,
x
2
,
⋯
,
x
n
)
.
\phi(t_1,t_2,\cdots,t_n) = \int_{-\infty}^{\infty}\cdots\int_{-\infty}^{\infty}e^{i(t_1x_1 + \cdots + t_nx_n)}dF(x_1,x_2,\cdots,x_n).
ϕ(t1,t2,⋯,tn)=∫−∞∞⋯∫−∞∞ei(t1x1+⋯+tnxn)dF(x1,x2,⋯,xn).
多元特征函数具以下性质:
-
ϕ ( t 1 , t 2 , ⋯ , t n ) \phi(t_1,t_2,\cdots,t_n) ϕ(t1,t2,⋯,tn) 在 R n \mathbb{R^n} Rn 中一致连续,且
{ ∣ ϕ ( t 1 , t 2 , ⋯ , t n ) ∣ ⩽ ϕ ( 0 , 0 , ⋯ , 0 ) = 1 ϕ ( − t 1 , − t 2 , ⋯ , − t n ) = ϕ ( t 1 , t 2 , ⋯ , t n ) ‾ . \begin{cases}|\phi(t_1,t_2,\cdots,t_n)|\leqslant \phi(0,0,\cdots,0) = 1 \\ \phi(-t_1,-t_2,\cdots,-t_n) = \overline{\phi(t_1,t_2,\cdots,t_n)}\end{cases}. {∣ϕ(t1,t2,⋯,tn)∣⩽ϕ(0,0,⋯,0)=1ϕ(−t1,−t2,⋯,−tn)=ϕ(t1,t2,⋯,tn). -
Y = a 1 X 1 + ⋯ + a n X n Y = a_1X_1 + \cdots + a_nX_n Y=a1X1+⋯+anXn 的特征函数为:
ϕ Y ( t ) = ϕ ( a 1 t , ⋯ , a n t ) . \phi_{Y}(t) = \phi(a_1t, \cdots, a_nt). ϕY(t)=ϕ(a1t,⋯,ant). -
若矩 E X 1 k 1 ⋯ X n k n EX_1^{k_1}\cdots X_n^{k_n} EX1k1⋯Xnkn 存在,则
E X 1 k 1 ⋯ X n k n = ( − 1 ) ∑ j = 1 n k j [ ∂ ∑ j = 1 n k j ϕ ( t 1 , ⋯ , t n ) ∂ t 1 k 1 ⋯ ∂ t n k n ] t 1 = t 2 = ⋯ = t n = 0 EX_1^{k_1}\cdots X_n^{k_n} = (-1)^{\sum_{j = 1}{n}k_j}[\frac{\partial^{\sum_{j=1}^{n}k_{j}}\phi(t_1,\cdots,t_n)}{\partial t_1^{k_1}\cdots \partial t_n^{k_n}}]_{t_1 = t_2 = \cdots = t_n = 0} EX1k1⋯Xnkn=(−1)∑j=1nkj[∂t1k1⋯∂tnkn∂∑j=1nkjϕ(t1,⋯,tn)]t1=t2=⋯=tn=0 -
若 ( X 1 , X 2 , ⋯ , X n ) (X_1,X_2,\cdots, X_n) (X1,X2,⋯,Xn) 的特征函数为
ϕ ( t 1 , t 2 , ⋯ , t n ) \phi(t_1,t_2,\cdots,t_n) ϕ(t1,t2,⋯,tn),
则 k ( k < n ) k (k < n) k(k<n) 维随机向量的特征函数为
ϕ 1 , 2 , ⋯ , k ( t 1 , t 2 , ⋯ , t k ) = ϕ ( t 1 , t 2 , ⋯ , t k , 0 , ⋯ , 0 ) \phi_{1,2,\cdots,k}(t_1,t_2,\cdots,t_k) = \phi(t_1,t_2,\cdots,t_k,0,\cdots,0) ϕ1,2,⋯,k(t1,t2,⋯,tk)=ϕ(t1,t2,⋯,tk,0,⋯,0)
这是前 k k k 个分量的 k k k 维边缘分布 所对应的特征函数. -
随机变量 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn 相互独立 ⇔ ϕ ( t 1 , t 2 , ⋯ , t n ) = ∏ i = 1 n ϕ ( t i ) \Leftrightarrow \phi (t_1,t_2,\cdots,t_n) = \prod_{i = 1}^{n}\phi(t_i) ⇔ϕ(t1,t2,⋯,tn)=∏i=1nϕ(ti)
-
( X 1 , X 2 , ⋯ , X n ) , ( Y 1 , Y 2 , ⋯ , Y m ) (X_1,X_2,\cdots,X_n), (Y_1,Y_2,\cdots,Y_m) (X1,X2,⋯,Xn),(Y1,Y2,⋯,Ym) 相互独立 ⇔ ϕ ( t 1 , t 2 , ⋯ , t n , u 1 , ⋯ , u m ) = ϕ 1 ( t 1 , t 2 , ⋯ , t n ) ϕ 2 ( u 1 , u 2 , ⋯ , u m ) . \Leftrightarrow \phi(t_1,t_2,\cdots,t_n,u_1,\cdots, u_m) = \phi_{1}(t_1,t_2,\cdots,t_n)\phi_{2}(u_1,u_2,\cdots,u_m). ⇔ϕ(t1,t2,⋯,tn,u1,⋯,um)=ϕ1(t1,t2,⋯,tn)ϕ2(u1,u2,⋯,um).
多元特征函数和多元分布函数之间也具有一一对应关系,即也成立唯一性定理.