一、中心极限定理
1.1 独立同分布的中心极限定理
1.1.1 定理
设 X 1 , X 2 , . . . , X n 为 相 互 独 立 、 服 从 同 一 分 布 的 随 机 变 量 序 列 , 且 E ( X i ) = μ , D ( X i ) = σ 2 ≠ 0 ( i = 1 , 2 , . . . n ) , 则 对 于 任 意 x , 有 : 设X_1,X_2,...,X_n为相互独立、服从同一分布的随机变量序列,且E(X_i)=\mu,D(X_i)=\sigma^2\ne0(i=1,2,...n),则对于任意x,有: 设X1,X2,...,Xn为相互独立、服从同一分布的随机变量序列,且E(Xi)=μ,D(Xi)=σ2=0(i=1,2,...n),则对于任意x,有:
lim n → ∞ P { ∑ i = 1 n X i − n μ n σ ≤ x } = ∫ − ∞ x 1 2 π e − t 2 2 d t = Φ ( x ) ( 1.1 ) \lim_{n\to\infty}P\begin{Bmatrix}{\sum_{i=1}^nX_i-n\mu\over\sqrt{n}\sigma}\le x\end{Bmatrix}=\int_{-\infty}^x{1\over\sqrt{2\pi}}e^{-{t^2\over2}}dt=\Phi(x)\quad\quad\quad\quad\quad\quad (1.1) limn→∞P{nσ∑i=1nXi−nμ≤x}=∫−∞x2π1e−2t2dt=Φ(x)(1.1)
该定理通常被称为林德伯格-莱维(Lindeberg-Levy)定理。
来看下上面定理的含义:
若记:
Y n = ∑ i = 1 n X i − n μ n σ Y_n={\sum_{i=1}^nX_i-n\mu\over\sqrt{n}\sigma} Yn=nσ∑i=1nXi−nμ
记 F Y n ( x ) F_{Y_n}(x) FYn(x)为 Y n Y_n Yn的分布函数,则1.1式可以写成:
l i m n → ∞ F Y n ( x ) = Φ ( x ) lim_{n\to\infty}F_{Y_n}(x)=\Phi(x) limn→∞FYn(x)=Φ(x)
这表明,当充分大时, Y n Y_n Yn近似服从正态分布 N ( 0 , 1 ) N(0,1) N(0,1),即:
∑ i = 1 n X i − n μ n σ ∽ N ( 0 , 1 ) {\sum_{i=1}^nX_i-n\mu\over\sqrt{n}\sigma}\backsim N(0,1) nσ∑i=1nXi−nμ∽N(0,1)
从而当n充分大时:
∑ i = 1 n ∽ N ( n μ , n σ 2 ) ( 1.2 ) \sum_{i=1}^n\backsim N(n\mu,n\sigma^2)\quad\quad\quad\quad\quad\quad(1.2) ∑i=1n∽N(nμ,nσ2)(1.2)
式1.2说明,不论 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn服从什么分布,只要满足定理的条件,当n充分大时,就可以把 ∑ i = 1 n X i \sum_{i=1}^nX_i ∑i=1nXi做为正态随机变量处理,这个性质很重要。
将定理稍作变形,可以得到这个表现形式:
X
‾
−
μ
σ
n
∽
N
(
0
,
1
)
{{\overline{X}-\mu}\over \sigma\sqrt{n}}\backsim N(0,1)
σnX−μ∽N(0,1)
即:
X
‾
∽
N
(
μ
,
σ
2
n
)
\overline{X}\backsim N(\mu,{\sigma^2\over n})
X∽N(μ,nσ2),其中
X
‾
=
1
n
∑
i
=
1
n
X
i
\overline{X}={1\over n}\sum_{i=1}^nX_i
X=n1∑i=1nXi
由以上推导可知,无论 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是服从什么分布,其算术平均值当n充分大是总是近似地服从正态分布。这一结果是数理统计中大样本理论的基础。
https://wenku.baidu.com/view/6db8601ac950ad02de80d4d8d15abe23482f0338.html?fr=search
二、马尔科夫不等式&切比雪夫不等式
切比雪夫不等式描述了这样一个事实,事件大多会集中在平均值附近。且切比雪夫不等式是马尔科夫不等式的特殊情况,因此首先看下马尔科夫不等式
2.1 马尔科夫不等式
其不等式表示如下:
P
(
X
≥
a
)
≤
E
(
X
)
a
P(X\ge a)\le{E(X)\over a}
P(X≥a)≤aE(X),其中
X
≥
0
X\ge0
X≥0
2.1.1 直观感受
通过
μ
=
1.3
,
σ
=
0.5
\mu=1.3,\sigma=0.5
μ=1.3,σ=0.5的正态分布来展示:
2.1.2 证明
代数证明:
马尔科夫不等式有一个条件:X是一个非负的随机变量
E ( x ) = ∫ − ∞ + ∞ x f ( x ) d x E(x)=\int_{-\infty}^{+\infty}xf(x)dx E(x)=∫−∞+∞xf(x)dx
≥ ∫ t + ∞ x f ( x ) d x \quad\quad\ge\int_t^{+\infty}xf(x)dx ≥∫t+∞xf(x)dx
≥ t ∫ t + ∞ f ( x ) d x \quad\quad\ge t\int_t^{+\infty}f(x)dx ≥t∫t+∞f(x)dx
= t P ( x ≥ t ) \quad\quad=tP(x\ge t) =tP(x≥t)
将t从等式右端移到左端,得证
几何证明:
首先引入示性函数
I
{
A
}
I_{\{A\}}
I{A}的概念,示性函数只有在事件A成立时才返回1,否则为0. 我们需要使用的一个引理是,当事件是如下形式,如
A
=
{
X
>
a
}
A=\{X>a\}
A={X>a}时,示性函数的期望可以表示事件发生的概率,即
E
(
I
{
A
}
)
=
P
(
A
)
E(I_{\{A\}})=P(A)
E(I{A})=P(A)。
引入示性函数后,我们就可以把概率我呢提转移到更直观的空间上。举例而言,我们知道,对于任意的非负x和b:
I
{
x
≥
b
}
≤
x
b
I_{\{x\ge b\}}\le{x\over b}
I{x≥b}≤bx
从几何角度来说,即
x
b
{x\over b}
bx在第一象限永远不低于
I
{
x
≥
b
}
I_{\{x\ge b\}}
I{x≥b},如图所示:
将自变量换为随机变量X,上述不等式同样成立,再对不等式两边
求均值,就可以得到:
P ( X ≥ b ) ≤ E ( X ) b P(X\ge b)\le{E(X)\over b} P(X≥b)≤bE(X)
2.2 切比雪夫不等式
设 随 机 变 量 X 具 有 数 学 期 望 E ( X ) = μ , 方 差 D ( X ) = σ 2 , 则 对 于 任 意 k > 0 都 有 : 设随机变量X具有数学期望E(X)=\mu,方差D(X)=\sigma^2,则对于任意k>0都有: 设随机变量X具有数学期望E(X)=μ,方差D(X)=σ2,则对于任意k>0都有:
P { ∣ X − E ( X ) ∣ ≥ k σ } ≤ 1 k 2 P\{|X-E(X)|\ge k\sigma\}\le{1\over k^2} P{∣X−E(X)∣≥kσ}≤k21
2.2.1 直观感受
2.2.2 证明
几何证明:
同样采用示性函数来证明,对于任意的x,a和b,由示性函数可知:
I
{
∣
x
−
a
∣
≥
b
}
≤
(
x
−
a
)
2
b
2
I_{\{|x-a|\ge b\}}\le{(x-a)^2\over b^2}
I{∣x−a∣≥b}≤b2(x−a)2
其中右半部分是一个二次函数,左半部分是两端取1的示性函数,这个不等式画出来如下所示:
二次函数的值在任意点都不会低于示性函数,其中,两个坐标轴的交点(原点)实际上为
(
a
,
0
)
(a,0)
(a,0),而两条虚线对应的x轴的值分别为a-b和a+b。
将自变量x变为随机变量X,以上不等式依然成立,此时再对不等式两边求均值,同时设定a为随机变量X的均值
E
(
X
)
E(X)
E(X),就可以得到切比雪夫不等式:
P ( ∣ X − μ ∣ ≥ b ) ≤ V a r ( X ) b 2 P(|X-\mu|\ge b)\le{Var(X)\over b^2} P(∣X−μ∣≥b)≤b2Var(X)
https://www.zhihu.com/question/27821324/answer/248693398
三、大数定理
3.1 随机变量序列依概率收敛
3.1.1 定义:
设
随
机
变
量
序
列
Y
1
,
Y
2
,
.
.
.
,
Y
n
,
.
.
.
,
若
存
在
某
常
数
a
,
使
得
∀
ε
>
0
,
均
有
:
l
i
m
n
→
+
∞
P
{
∣
Y
n
−
a
∣
<
ε
}
=
1
设随机变量序列Y_1,Y_2,...,Y_n,...,若存在某常数a,使得\forall \varepsilon>0,均有:lim_{n\to+\infty}P\{|Y_n-a|<\varepsilon\}=1
设随机变量序列Y1,Y2,...,Yn,...,若存在某常数a,使得∀ε>0,均有:limn→+∞P{∣Yn−a∣<ε}=1
则
称
随
机
变
量
序
列
{
Y
n
}
依
概
率
收
敛
于
常
数
a
,
记
为
:
Y
n
→
P
a
则称随机变量序列\{Y_n\}依概率收敛于常数a,记为:Y_n\xrightarrow{P}a
则称随机变量序列{Yn}依概率收敛于常数a,记为:YnPa
3.1.2 性质
若 X n → P a , Y n → b , 且 g ( x , y ) 在 ( a , b ) 处 连 续 , 则 g ( X n , Y n ) → P g ( a , b ) 若X_n\xrightarrow{P}a,Y_n\xrightarrow{b},且g(x,y)在(a,b)处连续,则g(X_n,Y_n)\xrightarrow{P}g(a,b) 若XnPa,Ynb,且g(x,y)在(a,b)处连续,则g(Xn,Yn)Pg(a,b)
3.2 大数定理
3.2.1 定理一:切比雪夫定理的特殊情况
设
随
机
变
量
序
列
X
1
,
X
2
,
.
.
.
,
X
n
,
.
.
.
相
互
独
立
,
且
具
有
相
同
的
数
学
期
望
和
相
同
的
方
差
σ
2
,
作
前
n
个
随
机
变
量
的
算
术
平
均
:
设随机变量序列X_1,X_2,...,X_n,...相互独立,且具有相同的数学期望和相同的方差\sigma^2,作前n个随机变量的算术平均:
设随机变量序列X1,X2,...,Xn,...相互独立,且具有相同的数学期望和相同的方差σ2,作前n个随机变量的算术平均:
1
n
∑
k
=
1
n
X
k
=
X
‾
{1\over n}\sum_{k=1}^nX_k=\overline{X}
n1∑k=1nXk=X
则
∀
ε
>
0
,
有
:
则\forall \varepsilon>0,有:
则∀ε>0,有:
l
i
m
n
→
∞
P
{
∣
X
‾
−
μ
∣
<
ε
}
=
l
i
m
n
→
∞
P
{
∣
1
n
∑
k
=
1
n
−
μ
∣
<
ε
}
=
1
lim_{n\to\infty}P\{|\overline{X}-\mu|<\varepsilon\}=lim_{n\to\infty}P\{|{1\over n}\sum_{k=1}^n-\mu|<\varepsilon\}=1
limn→∞P{∣X−μ∣<ε}=limn→∞P{∣n1∑k=1n−μ∣<ε}=1
证明:
由于:
E
(
X
‾
)
=
E
(
1
n
∑
k
=
1
n
X
k
)
=
1
n
⋅
n
μ
=
μ
E(\overline{X})=E({1\over n}\sum_{k=1}^nX_k)={1\over n}\centerdot n\mu=\mu
E(X)=E(n1∑k=1nXk)=n1⋅nμ=μ
D
(
X
‾
)
=
D
(
1
n
∑
k
=
1
n
X
k
)
=
1
n
2
∑
k
=
1
n
D
(
X
k
)
=
1
n
2
⋅
n
σ
2
=
σ
2
n
D(\overline{X})=D({1\over n}\sum_{k=1}^nX_k)={1\over n^2}\sum_{k=1}^nD(X_k)={1\over n^2}\centerdot n\sigma^2={\sigma^2\over n}
D(X)=D(n1∑k=1nXk)=n21∑k=1nD(Xk)=n21⋅nσ2=nσ2
由切比雪夫不等式得:
P
{
∣
1
n
∑
k
=
1
n
X
k
−
μ
∣
<
ε
}
≥
1
−
σ
2
/
n
ε
2
⟹
l
i
m
n
→
∞
P
{
∣
1
n
∑
k
=
1
n
X
k
−
μ
∣
<
ε
}
=
1
P\{|{1\over n}\sum_{k=1}^nX_k-\mu|<\varepsilon\}\ge1-{\sigma^2/n\over\varepsilon^2}\implies lim_{n\to\infty}P\{|{1\over n}\sum_{k=1}^nX_k-\mu|<\varepsilon\}=1
P{∣n1∑k=1nXk−μ∣<ε}≥1−ε2σ2/n⟹limn→∞P{∣n1∑k=1nXk−μ∣<ε}=1
3.2.2 定理二:伯努利大数定理
设
事
件
A
在
每
次
试
验
中
发
生
的
概
率
为
p
,
记
n
A
为
n
次
独
立
重
复
试
验
中
A
发
生
的
次
数
,
则
∀
ε
>
0
,
有
:
设事件A在每次试验中发生的概率为p,记n_A为n次独立重复试验中A发生的次数,则\forall\varepsilon>0,有:
设事件A在每次试验中发生的概率为p,记nA为n次独立重复试验中A发生的次数,则∀ε>0,有:
l
i
m
n
→
+
∞
P
{
∣
n
A
n
−
P
∣
<
ε
}
=
1
lim_{n\to+\infty}P\{|{n_A\over n}-P|<\varepsilon\}=1
limn→+∞P{∣nnA−P∣<ε}=1
证明:
∵
n
A
∽
B
(
n
,
p
)
,
E
(
n
A
n
)
=
1
n
⋅
n
p
=
p
,
D
(
n
A
n
)
=
1
n
2
D
(
n
A
)
=
1
n
2
⋅
n
p
q
=
p
q
n
\because n_A\backsim B(n,p),E({n_A\over n})={1\over n}\centerdot np=p, D({n_A\over n})={1\over n^2}D(n_A)={1\over n^2}\centerdot npq={pq\over n}
∵nA∽B(n,p),E(nnA)=n1⋅np=p,D(nnA)=n21D(nA)=n21⋅npq=npq
利用切比雪夫不等式可得:
∀
ε
>
0
,
有
P
{
∣
n
A
n
−
p
∣
<
ε
}
≥
1
−
p
q
n
ε
2
\forall\varepsilon>0,有P\{|{n_A\over n}-p|<\varepsilon\}\ge1-{pq\over n\varepsilon^2}
∀ε>0,有P{∣nnA−p∣<ε}≥1−nε2pq
即得:
l
i
m
n
→
+
∞
P
{
∣
n
A
n
−
p
∣
<
ε
}
=
1
lim_{n\to+\infty}P\{|{n_A\over n}-p|<\varepsilon\}=1
limn→+∞P{∣nnA−p∣<ε}=1
https://wenku.baidu.com/view/2b88b411cc7931b765ce15f4.html?sxts=1591850252432