第一章 初等概率论
1.概率空间、随机变量与数字特征
概率空间通常记作 ( Ω , F , P ) (\Omega, \mathcal F, P) (Ω,F,P),其中 Ω \Omega Ω是样本空间表示随机试验的所有可能基本结果, F \mathcal F F表示事件域, P P P代表概率。
- Ω \Omega Ω由一系列样本点 ω \omega ω组成(有限或无限),且 P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1;
- F \mathcal F F是事件域,是所有事件 A A A的集合;每一个事件 A A A包含一系列样本点 ω \omega ω;
- P P P是作用于事件域 F \mathcal F F上的函数。
在给定事件
B
B
B已经发生的情况下
A
A
A发生的概率称为条件概率,定义为
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
,
A
,
B
∈
F
P(A|B)=\frac{P(AB)}{P(B)},\quad A,B\in \mathcal F
P(A∣B)=P(B)P(AB),A,B∈F
由概率空间的定义,
(
Ω
,
F
,
P
(
⋅
∣
B
)
)
(\Omega, \mathcal F, P(\cdot|B))
(Ω,F,P(⋅∣B))也是一个概率空间。有一些与条件概率相关的公式:
-
全概率公式:对于一个完备事件组 B 1 , ⋯ , B N ( N ≤ ∞ ) B_1,\cdots,B_N(N\le \infty) B1,⋯,BN(N≤∞),即两两不相容且 Ω = ∑ i = 1 N B i \Omega=\sum_{i=1}^N B_i Ω=∑i=1NBi,则对任意事件 A A A有
P ( A ) = ∑ i = 1 N P ( A ∣ B i ) P ( B i ) P(A)=\sum_{i=1}^N P(A|B_i)P(B_i) P(A)=i=1∑NP(A∣Bi)P(Bi)
由此推论,对于事件 B B B,若 B ˉ \bar B Bˉ为其反,则
P ( A ) = P ( A ∣ B ) P ( B ) + P ( A ∣ B ˉ ) P ( B ˉ ) P(A)=P(A|B)P(B)+P(A|\bar B)P(\bar B) P(A)=P(A∣B)P(B)+P(A∣Bˉ)P(Bˉ) -
链式法则:由于 P ( A B ) = P ( B ) P ( A ∣ B ) P(AB)=P(B)P(A|B) P(AB)=P(B)P(A∣B),故进行推广,有
P ( A 1 ⋯ A m ) = P ( A 1 ) P ( A 2 ∣ A 1 ) ⋯ P ( A m ∣ A m − 1 ⋯ A 1 ) P(A_1\cdots A_m)=P(A_1)P(A_2|A_1)\cdots P(A_m|A_{m-1}\cdots A_1) P(A1⋯Am)=P(A1)P(A2∣A1)⋯P(Am∣Am−1⋯A1)
两个事件独立,指的是事件
B
B
B发生对事件
A
A
A的概率没有影响。也就是说
A
,
B
A,B
A,B独立等价于
P
(
A
∣
B
)
=
P
(
A
)
⇔
P
(
A
B
)
=
P
(
A
)
P
(
B
)
P(A|B)=P(A)\Leftrightarrow P(AB)=P(A)P(B)
P(A∣B)=P(A)⇔P(AB)=P(A)P(B)
如果推广到多个事件,则
A
1
,
⋯
,
A
m
A_1,\cdots,A_m
A1,⋯,Am相互独立需要同时满足以下方程:
{
P
(
A
i
A
j
)
=
P
(
A
i
)
P
(
A
j
)
,
i
<
j
,
P
(
A
i
A
j
A
k
)
=
P
(
A
i
)
P
(
A
j
)
P
(
A
k
)
,
i
<
j
<
k
,
⋯
⋯
P
(
A
1
A
2
⋯
A
n
)
=
P
(
A
1
)
P
(
A
2
)
⋯
P
(
A
n
)
.
\left\{ \begin{array}{l} P(A_iA_j)=P(A_i)P(A_j), &i<j,\\ P(A_iA_jA_k)=P(A_i)P(A_j)P(A_k),&i<j<k,\\ \cdots&\cdots\\ P(A_1A_2\cdots A_n)=P(A_1)P(A_2)\cdots P(A_n). \end{array} \right.
⎩⎪⎪⎨⎪⎪⎧P(AiAj)=P(Ai)P(Aj),P(AiAjAk)=P(Ai)P(Aj)P(Ak),⋯P(A1A2⋯An)=P(A1)P(A2)⋯P(An).i<j,i<j<k,⋯
即同时满足事件组中任意两个、三个直至
n
n
n个事件都是互相独立的。再推广到两个事件域
A
1
,
A
2
\mathcal A_1,\mathcal A_2
A1,A2,如果
∀
A
1
∈
A
1
,
A
2
∈
A
2
\forall A_1\in\mathcal A_1,A_2\in\mathcal A_2
∀A1∈A1,A2∈A2都有
A
1
,
A
2
A_1,A_2
A1,A2独立,则称事件域
A
1
,
A
2
\mathcal A_1,\mathcal A_2
A1,A2独立。
随机变量
X
X
X是
Ω
↦
R
\Omega \mapsto \R
Ω↦R的一个映射,给定事件
B
∈
B
B\in\mathcal B
B∈B,这里
B
\mathcal B
B是
R
\R
R上所有左开右闭有限区间构成的集合,满足可测性条件
X
−
1
(
B
)
=
{
ω
∈
Ω
:
X
∈
B
}
∈
A
X^{-1}(B)=\{\omega\in\Omega:X\in B\}\in\mathcal A
X−1(B)={ω∈Ω:X∈B}∈A
随机变量
X
X
X在概率
P
P
P下的分布函数
F
X
(
x
)
F_X(x)
FX(x)定义为
F
X
(
x
)
=
P
(
ω
:
X
≤
x
)
,
x
∈
R
F_X(x)=P(\omega:X\le x),\quad x\in \R
FX(x)=P(ω:X≤x),x∈R
最常见的随机变量是离散随机变量与连续随机变量。离散随机变量可以用一个概率分布列表示,
X
∼
(
x
1
x
2
⋯
x
N
p
1
p
2
⋯
p
N
)
,
∑
i
=
1
N
p
i
=
1
,
N
≤
∞
X\sim \left( \begin{array}{c} x_1&x_2&\cdots&x_N\\ p_1&p_2&\cdots&p_N \end{array} \right),\quad \sum_{i=1}^Np_i=1,N\le\infty
X∼(x1p1x2p2⋯⋯xNpN),i=1∑Npi=1,N≤∞
连续随机变量可以用概率密度表示,记作
X
∼
p
(
x
)
X\sim p(x)
X∼p(x),概率密度
p
(
x
)
p(x)
p(x)满足
F
(
x
)
=
∫
−
∞
x
p
(
u
)
d
u
,
x
∈
R
F(x)=\int_{-\infty}^x p(u) du,\quad x\in \R
F(x)=∫−∞xp(u)du,x∈R
将随机变量整合就得到随机向量
(
X
,
Y
)
(X,Y)
(X,Y),其分布函数定义为
F
X
,
Y
(
x
,
y
)
=
P
(
ω
:
X
≤
x
,
Y
≤
y
)
F_{X,Y}(x,y)=P(\omega:X\le x,Y\le y)
FX,Y(x,y)=P(ω:X≤x,Y≤y)
记边际分布函数为
F
X
(
x
)
=
F
X
,
Y
(
x
,
∞
)
,
F
Y
(
y
)
=
F
X
,
Y
(
∞
,
y
)
F_X(x)=F_{X,Y}(x,\infty),\quad F_Y(y)=F_{X,Y}(\infty,y)
FX(x)=FX,Y(x,∞),FY(y)=FX,Y(∞,y)
联合分布可以唯一确定边际分布,但两个边际分布不能确定联合分布。
-
如果随机向量 ( X , Y ) (X,Y) (X,Y)是离散型的,则条件分布列为
P Y ∣ X ( y j ∣ x i ) = p i j p i ⋅ , P X ∣ Y ( x i ∣ y j ) = p i j p ⋅ j P_{Y|X}(y_j|x_i)=\frac{p_{ij}}{p_{i\cdot}},\quad P_{X|Y} (x_i|y_j)=\frac{p_{ij}}{p_{\cdot j}} PY∣X(yj∣xi)=pi⋅pij,PX∣Y(xi∣yj)=p⋅jpij
相互独立等价于 p i j = p i ⋅ p ⋅ j p_{ij}=p_{i\cdot}p_{\cdot j} pij=pi⋅p⋅j。
-
如果随机向量 ( X , Y ) (X,Y) (X,Y)是连续型的,则条件密度为
p Y ∣ X ( y ∣ x ) = p ( x , y ) p X ( x ) , p X ∣ Y = p ( x , y ) p Y ( y ) p_{Y|X}(y|x)=\frac{p(x,y)}{p_X(x)},\quad p_{X|Y}=\frac{p(x,y)}{p_Y(y)} pY∣X(y∣x)=pX(x)p(x,y),pX∣Y=pY(y)p(x,y)
其中
F X , Y ( x , y ) = ∫ − ∞ x ∫ − ∞ y p ( u , v ) d u d v , x , y ∈ R p X ( x ) = ∫ − ∞ ∞ p ( x , y ) d y , p Y ( y ) = ∫ − ∞ ∞ p ( x , y ) d x F_{X,Y}(x,y)=\int_{-\infty}^x\int_{-\infty}^y p(u,v)dudv,\quad x,y\in\R\\ p_X(x)=\int_{-\infty}^{\infty}p(x,y)dy,\quad p_Y(y)=\int_{-\infty}^\infty p(x,y)dx FX,Y(x,y)=∫−∞x∫−∞yp(u,v)dudv,x,y∈RpX(x)=∫−∞∞p(x,y)dy,pY(y)=∫−∞∞p(x,y)dx
相互独立等价于
p ( x , y ) = p X ( x ) p Y ( y ) p(x,y)=p_X(x)p_Y(y) p(x,y)=pX(x)pY(y)
对于随机变量 X X X,设其分布函数为 F ( x ) F(x) F(x),密度函数为 p ( x ) p(x) p(x)或概率分布列为 p i p_i pi,则有以下数字特征:
-
期望
对于离散随机变量,如果 ∑ i = 1 N ∣ x i ∣ p i < ∞ \sum_{i=1}^N |x_i|p_i<\infty ∑i=1N∣xi∣pi<∞,则期望为
E X = ∑ i = 1 N x i p i EX=\sum_{i=1}^N x_ip_i EX=i=1∑Nxipi对于连续随机变量,如果 ∫ − ∞ ∞ ∣ x ∣ p ( x ) d x < ∞ \int_{-\infty}^\infty |x|p(x) dx<\infty ∫−∞∞∣x∣p(x)dx<∞,则期望为
E X = ∫ − ∞ ∞ x p ( x ) d x EX=\int_{-\infty}^\infty xp(x)dx EX=∫−∞∞xp(x)dx
期望的表达式为
E X = ∫ − ∞ ∞ x d F ( x ) EX=\int_{-\infty}^\infty xdF(x) EX=∫−∞∞xdF(x)
对于随机变量函数 f ( X ) f(X) f(X),其期望为
E f ( X ) = ∫ − ∞ ∞ f ( x ) d F ( x ) Ef(X)=\int_{-\infty}^\infty f(x)dF(x) Ef(X)=∫−∞∞f(x)dF(x)
定义 E X k EX^k EXk为随机变量 X X X的 k k k阶矩。矩母函数 G X ( t ) G_X(t) GX(t)定义为
G X ( t ) = E ( e t X ) = ∫ − ∞ ∞ e t x d F ( x ) G_X(t)=E(e^{tX})=\int_{-\infty}^\infty e^{tx}dF(x) GX(t)=E(etX)=∫−∞∞etxdF(x)
矩母函数并不总是存在,但如果两个随机变量拥有有限且相同的矩母函数,则这两个随机变量同分布。 -
方差
对于随机变量 X X X,如果 E X 2 < ∞ EX^2<\infty EX2<∞,则定义方差为
D X = E ( X − E X ) 2 = E X 2 − ( E X ) 2 DX=E(X-EX)^2=EX^2-(EX)^2 DX=E(X−EX)2=EX2−(EX)2
关于方差有一个切比雪夫不等式,为
P ( ∣ X − E X ∣ > ε ) ≤ D X ε 2 P(|X-EX|>\varepsilon)\le \frac{DX}{\varepsilon^2} P(∣X−EX∣>ε)≤ε2DX
如果令 T = ∣ X − E X ∣ T=|X-EX| T=∣X−EX∣,则有
P ( T > ε ) = P ( T 2 > ε 2 ) ≤ E T 2 ε 2 P ( X > a ) ≤ E X a , X ≥ 0 , a > 0 P(T>\varepsilon)=P(T^2>\varepsilon^2)\le \frac{ET^2}{\varepsilon^2}\\ P(X>a)\le\frac{EX}{a},\quad X\ge 0,a>0 P(T>ε)=P(T2>ε2)≤ε2ET2P(X>a)≤aEX,X≥0,a>0
得到马尔科夫不等式的形式,因此马尔科夫不等式可以用来证明切比雪夫不等式。 -
协方差
对于随机变量 X , Y X,Y X,Y,协方差与相关系数定义为
C o v ( X , Y ) = E [ ( X − E X ) ( Y − E Y ) ] = E ( X Y ) − E X E Y ρ X , Y = C o v ( X , Y ) D X ⋅ D Y ∈ [ − 1 , 1 ] Cov(X,Y)=E[(X-EX)(Y-EY)]=E(XY)-EXEY\\ \rho_{X,Y}=\frac{Cov(X,Y)}{\sqrt{DX\cdot DY}}\in[-1,1] Cov(X,Y)=E[(X−EX)(Y−EY)]=E(XY)−EXEYρX,Y=DX⋅DYCov(X,Y)∈[−1,1]
如果两个随机变量协方差为0,则意味着两个随机变量相互独立;如果相关系数为 ± 1 \pm1 ±1,则意味着两个随机变量之间存在线性关系。多维随机向量的协方差矩阵定义为
Σ = ( c i j ) n × n , c i j = C o v ( X i , X j ) \boldsymbol \Sigma=(c_{ij})_{n\times n},\quad c_{ij}=Cov(X_i,X_j) Σ=(cij)n×n,cij=Cov(Xi,Xj)
与以上几种数字特征相关的计算公式如下:
Y
=
a
X
+
b
⇒
E
Y
=
a
E
X
+
b
,
D
Y
=
a
2
D
X
;
E
(
X
+
Y
)
=
E
X
+
E
Y
;
D
(
X
+
Y
)
=
D
X
+
D
Y
+
2
C
o
v
(
X
,
Y
)
;
C
o
v
(
a
X
,
b
Y
)
=
C
o
v
(
b
Y
,
a
X
)
=
a
b
C
o
v
(
X
,
Y
)
;
C
o
v
(
X
+
Y
,
Z
)
=
C
o
v
(
X
,
Z
)
+
C
o
v
(
Y
,
Z
)
.
Y=aX+b\Rightarrow EY=aEX+b,DY=a^2DX;\\ E(X+Y)=EX+EY;\\ D(X+Y)=DX+DY+2Cov(X,Y);\\ Cov(aX,bY)=Cov(bY,aX)=abCov(X,Y);\\ Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z).
Y=aX+b⇒EY=aEX+b,DY=a2DX;E(X+Y)=EX+EY;D(X+Y)=DX+DY+2Cov(X,Y);Cov(aX,bY)=Cov(bY,aX)=abCov(X,Y);Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z).
在有了条件分布后可以类似定义条件期望,在绝对值有限的情况下,条件期望是
E
(
Y
∣
X
=
x
)
=
∫
−
∞
∞
y
d
F
Y
∣
X
(
y
∣
x
)
E(Y|X=x)=\int_{-\infty}^\infty y dF_{Y|X}(y|x)
E(Y∣X=x)=∫−∞∞ydFY∣X(y∣x)
对于连续情形,有
E
(
Y
∣
X
)
=
∫
−
∞
∞
y
p
Y
∣
X
(
y
∣
x
)
d
y
=
∫
−
∞
∞
y
p
(
x
,
y
)
p
X
(
x
)
d
y
E(Y|X)=\int_{-\infty}^\infty yp_{Y|X}(y|x)dy=\int_{-\infty}^\infty \frac{yp(x,y)}{p_X(x)}dy
E(Y∣X)=∫−∞∞ypY∣X(y∣x)dy=∫−∞∞pX(x)yp(x,y)dy
对于离散情形,有
E
(
Y
∣
X
=
x
i
)
=
∑
j
=
1
n
y
p
i
j
E(Y|X=x_i)=\sum_{j=1}^n yp_{ij}
E(Y∣X=xi)=j=1∑nypij
如果对于每一个
x
x
x,
E
(
Y
∣
X
=
x
)
E(Y|X=x)
E(Y∣X=x)都存在且有限,则定义
g
(
x
)
=
E
(
Y
∣
X
=
x
)
g(x)=E(Y|X=x)
g(x)=E(Y∣X=x),类似定义
g
(
X
)
=
E
(
Y
∣
X
)
g(X)=E(Y|X)
g(X)=E(Y∣X),有全期望公式:
E
[
E
(
Y
∣
X
)
]
=
E
(
g
(
X
)
)
=
E
Y
E[E(Y|X)]=E(g(X))=EY
E[E(Y∣X)]=E(g(X))=EY
随机变量
X
X
X的特征函数被定义为
ϕ
X
(
t
)
=
E
e
i
t
X
=
∫
−
∞
∞
e
i
t
x
d
F
X
(
x
)
,
t
∈
R
\phi_X(t)=Ee^{itX}=\int_{-\infty}^\infty e^{itx}dF_X(x),\quad t\in\R
ϕX(t)=EeitX=∫−∞∞eitxdFX(x),t∈R
任何随机变量的特征函数都存在,且具有以下基本性质:
-
ϕ ( 0 ) = E ( 1 ) = 1 \phi(0)=E(1)=1 ϕ(0)=E(1)=1;
-
∀ t ∈ R , ∣ ϕ ( t ) ∣ ≤ 1 \forall t\in \R,|\phi(t)|\le1 ∀t∈R,∣ϕ(t)∣≤1;
-
ϕ ( t ) \phi(t) ϕ(t)在 R \R R上一致连续,且非负定;
-
如果对某个 k ≥ 1 k\ge1 k≥1有 E X k < ∞ EX^k<\infty EXk<∞,那么 ϕ X ( t ) \phi_X(t) ϕX(t)在 t = 0 t=0 t=0处 k k k次连续可微,且
ϕ X ( k ) ( 0 ) = i k E X k \phi_X^{(k)}(0)=i^k EX^k ϕX(k)(0)=ikEXk
这可以用于求随机变量的 k k k阶矩; -
如果 X , Y X,Y X,Y相互独立,则有
ϕ X + Y ( t ) = ϕ X ( t ) ϕ Y ( t ) , t ∈ R \phi_{X+Y}(t)=\phi_X(t)\phi_Y(t),\quad t\in \R ϕX+Y(t)=ϕX(t)ϕY(t),t∈R -
给定两个随机变量 X , Y X,Y X,Y,它们分布函数相同当且仅当特征函数相同。
2.收敛与极限定理
几乎处处收敛:如果存在一个零概率事件 Ω 0 \Omega_0 Ω0,使得对任意 ω ∈ Ω − Ω 0 \omega\in\Omega-\Omega_0 ω∈Ω−Ω0,当 n → ∞ n\to \infty n→∞时有 X n ( ω ) → X ( ω ) X_n(\omega)\to X(\omega) Xn(ω)→X(ω),则称 X n X_n Xn几乎处处收敛于 X X X,记作 X n → X a.s. X_n\to X\text{ a.s.} Xn→X a.s.。这是所有收敛性中最强的一种。
依概率收敛:如果对任意 ε > 0 \varepsilon>0 ε>0,有 lim n → ∞ P ( ω : ∣ X n ( ω ) − X ( ω ) ∣ > ε ) = 0 \lim \limits_{n\to \infty}P(\omega:|X_n(\omega)-X(\omega)|>\varepsilon)=0 n→∞limP(ω:∣Xn(ω)−X(ω)∣>ε)=0,则称 X n X_n Xn依概率收敛于 X X X,记作 X n ⟶ P X X_n\stackrel{P}{\longrightarrow}X Xn⟶PX。依概率收敛比几乎处处收敛弱。
相关定理:
-
如果对某个 r > 0 r>0 r>0,有
lim n → ∞ E ∣ X n − X ∣ r = 0 \lim_{n\to \infty}E|X_n-X|^r=0 n→∞limE∣Xn−X∣r=0
那么 X n ⟶ P X X_n\stackrel{P}{\longrightarrow }X Xn⟶PX。 -
如果 X n ⟶ P X , X n ⟶ P Y X_n\stackrel{P}\longrightarrow X,X_n\stackrel P\longrightarrow Y Xn⟶PX,Xn⟶PY,则 X = Y a.s. X=Y\text{ a.s.} X=Y a.s.。
-
a n , b n a_n,b_n an,bn是常数列,如果 a n → a , b n → b , X n ⟶ P X a_n\to a,b_n\to b,X_n\stackrel P\longrightarrow X an→a,bn→b,Xn⟶PX,则有
a n X n + b n ⟶ P a X + b . a_nX_n+b_n\stackrel P\longrightarrow aX+b. anXn+bn⟶PaX+b. -
如果 X n ⟶ P X , Y n ⟶ P Y X_n\stackrel P\longrightarrow X,Y_n\stackrel P\longrightarrow Y Xn⟶PX,Yn⟶PY,那么
X n ± Y n ⟶ P X ± Y , X n Y n ⟶ P X Y . X_n\pm Y_n\stackrel P\longrightarrow X\pm Y,\\ X_nY_n\stackrel P\longrightarrow XY. Xn±Yn⟶PX±Y,XnYn⟶PXY.
如果进一步地有 Y ≠ 0 Y\neq0 Y=0,还有
X n Y n ⟶ P X Y . \frac{X_n}{Y_n}\stackrel P\longrightarrow \frac{X}{Y}. YnXn⟶PYX. -
令 f : R → R f:\R\to\R f:R→R是连续函数,如果 X n ⟶ P X X_n\stackrel P\longrightarrow X Xn⟶PX,那么
f ( X n ) ⟶ P f ( X ) . f(X_n)\stackrel P\longrightarrow f(X). f(Xn)⟶Pf(X).
依分布收敛:如果对于 F X ( x ) F_X(x) FX(x)的每一个连续点 x x x,都有 lim n → ∞ F n ( x ) = F X ( x ) \lim\limits_{n\to \infty}F_n(x)=F_X(x) n→∞limFn(x)=FX(x),则称 X n X_n Xn依分布收敛于 X X X,记作 X n ⟶ d X X_n\stackrel d\longrightarrow X Xn⟶dX。
相关定理:
-
列维连续性定理: X n ⟶ d X X_n\stackrel d\longrightarrow X Xn⟶dX当且仅当相应的特征函数收敛,即
lim n → ∞ ϕ n ( t ) = ϕ X ( t ) , t ∈ R . \lim_{n\to \infty}\phi_n(t)=\phi_X(t),\quad t\in\R. n→∞limϕn(t)=ϕX(t),t∈R.
如果存在一个函数 ϕ ( t ) \phi(t) ϕ(t)使得 lim n → ∞ ϕ n ( t ) = ϕ ( t ) \lim\limits_{n\to \infty}\phi_n(t)=\phi(t) n→∞limϕn(t)=ϕ(t),并且 ϕ ( t ) \phi(t) ϕ(t)在 t = 0 t=0 t=0处连续,那么存在一个随机变量 X X X使得 ϕ X = ϕ \phi_X=\phi ϕX=ϕ,并且 X n ⟶ d X X_n\stackrel d\longrightarrow X Xn⟶dX。 -
如果 c c c是常数,则 X n ⟶ P c ⇔ X n ⟶ d c X_n\stackrel P\longrightarrow c\Leftrightarrow X_n\stackrel d\longrightarrow c Xn⟶Pc⇔Xn⟶dc。
-
如果 X n ⟶ P X X_n\stackrel P\longrightarrow X Xn⟶PX,那么 X n ⟶ d X X_n\stackrel d\longrightarrow X Xn⟶dX。
-
如果 X n − Y n ⟶ P 0 X_n-Y_n\stackrel P\longrightarrow 0 Xn−Yn⟶P0且 X n ⟶ d X X_n\stackrel d\longrightarrow X Xn⟶dX,那么 Y n ⟶ d X Y_n\stackrel d\longrightarrow X Yn⟶dX。
-
如果 a n , b n a_n,b_n an,bn是常数列,且 a n → a , b n → b , X n ⟶ d X a_n\to a,b_n\to b,X_n\stackrel d\longrightarrow X an→a,bn→b,Xn⟶dX,那么
a n X n + b n ⟶ d a X + b . a_nX_n+b_n\stackrel d\longrightarrow aX+b. anXn+bn⟶daX+b. -
如果 c c c是常数, Y n ⟶ P c , X n ⟶ d X Y_n\stackrel P\longrightarrow c,X_n\stackrel d\longrightarrow X Yn⟶Pc,Xn⟶dX,则 X n Y n ⟶ d c X X_nY_n\stackrel d\longrightarrow cX XnYn⟶dcX。
-
令 f : R → R f:\R\to\R f:R→R是连续函数,如果 X n ⟶ d X X_n\stackrel d\longrightarrow X Xn⟶dX,那么
f ( X n ) ⟶ d f ( X ) . f(X_n)\stackrel d\longrightarrow f(X). f(Xn)⟶df(X).
均方收敛:如果 E X 2 < ∞ , E X n 2 < ∞ , n ≥ 1 EX^2<\infty,EX_n^2<\infty,n\ge1 EX2<∞,EXn2<∞,n≥1,且 lim n → ∞ E ∣ X n − X ∣ 2 = 0 \lim\limits_{n\to \infty}E|X_n-X|^2=0 n→∞limE∣Xn−X∣2=0,则称 X n X_n Xn均方收敛于 X X X,记作 X n ⟶ L 2 X X_n \stackrel {L^2}\longrightarrow X Xn⟶L2X。
相关定理:
- 如果 X n ⟶ L 2 X X_n\stackrel {L^2}\longrightarrow X Xn⟶L2X,那么 X n ⟶ P X X_n \stackrel P\longrightarrow X Xn⟶PX。
- 如果 X n ⟶ L 2 X , X n ⟶ L 2 Y X_n \stackrel {L^2}\longrightarrow X,X_n\stackrel {L^2}\longrightarrow Y Xn⟶L2X,Xn⟶L2Y,则 X = Y a.s. X=Y\text{ a.s.} X=Y a.s.。
- 如果存在于一个常数 M M M使得 ∣ X n ∣ ≤ M a.s. |X_n|\le M\text{ a.s.} ∣Xn∣≤M a.s.,并且 X n ⟶ P X X_n\stackrel P\longrightarrow X Xn⟶PX,那么 X n ⟶ L 2 X X_n\stackrel {L^2}\longrightarrow X Xn⟶L2X。
- 如果 X n ⟶ L 2 X X_n\stackrel {L^2}\longrightarrow X Xn⟶L2X,那么 E X n → E X EX_n\to EX EXn→EX。
接下来是极限定理,假设 ξ n \xi_n ξn是一系列独立同分布的随机变量,令 S n = ∑ i = 1 n ξ i S_n=\sum_{i=1}^n \xi_i Sn=∑i=1nξi。
柯尔莫哥洛夫极限定理表明,当
E
∣
ξ
n
∣
<
∞
,
E
ξ
n
=
μ
E|\xi_n|<\infty,E\xi_n=\mu
E∣ξn∣<∞,Eξn=μ时,有
S
n
n
→
μ
a.s.
\frac{S_n}{n}\to \mu\text{ a.s.}
nSn→μ a.s.
即样本均值以概率1收敛到总体均值。
林德伯格列维极限定理表明,当
D
ξ
n
=
σ
2
,
E
ξ
n
=
μ
D\xi_n=\sigma^2,E\xi_n=\mu
Dξn=σ2,Eξn=μ时,有
S
n
−
n
μ
n
σ
→
N
(
0
,
1
)
.
\frac{S_n-n\mu}{\sqrt{n}\sigma}\to N(0,1).
nσSn−nμ→N(0,1).
3.数学期望收敛定理
单调收敛定理:令 ( X n , n ≥ 1 ) (X_n,n\ge1) (Xn,n≥1)是一列单调不减非负随机变量,即 0 ≤ X n ≤ X n + 1 a.s. 0\le X_n\le X_{n+1} \text{ a.s.} 0≤Xn≤Xn+1 a.s.,如果 X n → X a.s. X_n\to X \text{ a.s.} Xn→X a.s.,那么 lim n → ∞ E X n = E X \lim\limits_{n\to \infty}EX_n=EX n→∞limEXn=EX;如果 ( X n , n ≥ 1 ) (X_n,n\ge1) (Xn,n≥1)是一列单调不增非负随机变量,即 0 ≤ X n + 1 ≤ X n a.s. 0\le X_{n+1}\le X_n\text{ a.s.} 0≤Xn+1≤Xn a.s.,如果 X n → X a.s. X_n\to X\text{ a.s.} Xn→X a.s.且 E X 1 < ∞ EX_1<\infty EX1<∞,则也有 lim n → ∞ E X n = E X \lim\limits_{n\to \infty}EX_n=EX n→∞limEXn=EX。
Fatou引理:令
(
X
n
,
n
≥
1
)
(X_n,n\ge 1)
(Xn,n≥1)是一列单调非负随机变量,那么
lim
n
→
∞
E
X
n
≥
E
(
lim
n
→
∞
X
n
)
\lim_{n\to\infty }EX_n\ge E(\lim_{n\to \infty}X_n)
n→∞limEXn≥E(n→∞limXn)
控制收敛定理:令
(
X
n
,
n
≥
1
)
(X_n,n\ge 1)
(Xn,n≥1)是一列随机变量,假设存在一个随机变量
Y
Y
Y使得
E
∣
Y
∣
<
∞
E|Y|<\infty
E∣Y∣<∞,并且
∣
X
n
∣
≤
Y
a.s.
|X_n|\le Y\text{ a.s.}
∣Xn∣≤Y a.s.,如果
X
n
→
X
a.s.
X_n\to X\text{ a.s.}
Xn→X a.s.或者
X
n
→
P
X
X_n\stackrel P\to X
Xn→PX,那么
lim
n
→
∞
E
X
n
=
E
X
\lim_{n\to \infty }EX_n=EX
n→∞limEXn=EX