后面介绍的很杂,我既想要清晰地介绍每个大数定律,又想要介绍他们都是怎么一步步被引进的,这样排版起来就很杂乱。所以我将每一个大数定律都搞了一个小标题,在前后分别介绍他们是怎么来的,自我感觉这样会更加清晰一些。
文章目录
主要内容
- 依概率收敛
- 依照分布收敛
- 大数定律
- Chebyshev inequality
- Markov Law of Large numbers
- Chebyshev Law of Large Numbers
- Bernoulli
- xinqin
- 以上大数定律的联系与区别
- 中心极限定理
- 伯路利中心极限定理
- 列维-林伯格中心极限定理
引入
大数定律,所谓的大数,是指很多的数,很多的试验次数,很大的样本容量。当我们所指的数足够大的时候,会有什么规律出现,大数定律讲述的就是这个事情。
在第一章引入频率的时候我们就是知道有一个抛掷硬币的试验,它表明的是,当试验次数足够多的时候,正面出现的概率近似为1/2,这是一个硬币密度均匀的情况下会出现的一个规律。我们统计学就是要研究这样的规律,这个试验说明随机事件(抛掷一枚硬币,正面朝上)的频率,当样本数量足够大的时候会接近于它的真实概率,它的真实概率是确定的,频率会随着不同的试验而发生变化,但是就刚才试验得出的结论,我们知道这个频率是“趋于”真实概率的,即 f ( A ) → p ( A ) ( n → ∞ ) f(A) \to p(A)(n \to \infty) f(A)→p(A)(n→∞),也就是它稳定于一个确切的值。
样本与总体
这里我们稍稍引入一点样本跟总体之间的概念。样本是指从总体中抽取一部分单位进行调查得到的得到的一组数据的集合,而总体是研究对象的全体。他们之间的关系是包含与被包含的关系,样本总是包含于总体中的,这点你可以从样本的定义来理解,从总体中“抽取”,从大的集合中抽取,得到的集合肯定是包含于大的集合。这里的抽取是有一个随机的因素在里面的,即我们不知道下次的抽取会出现什么样的样本,将样本映射在实数空间上,就可以表明样本是一个随机变量,每次抽取得到的样本都可能不相同。
还有,到样本的数据足够大的时候,粮食的平均产量也就接近于它的真实平均产量,即一般的平均产量就“无限地”接近于我们刚才经过统计计算得到的粮食平均产量。
两个实例,,有一个共同点,就是当样本数量足够多的时候,一个频率会很接近它的真实概率。就这一点,我们开始引入大数定律和中心极限定理。
依概率收敛
为了介绍大数定律,我们先介绍一个概念:依概率收敛。
当n趋于无穷的时候,随机数列的均值和一个确切的数列之间的绝对值之差大于一个任意小的常数,这个概率会趋于0. 也就是说,当n充分大的时候,他们之间绝对值之差的概率是趋于1的。
数学语言表示:
设
X
1
,
X
2
,
⋯
,
X
n
⋯
X_1,X_2,\cdots,X_n\cdots
X1,X2,⋯,Xn⋯为一列随机变量,对常数
a
a
a及任意
ϵ
>
0
,
\epsilon>0,
ϵ>0,有
lim
n
→
∞
P
{
X
n
−
a
n
∣
<
ϵ
}
=
1
,
\lim_{n \to \infty}P\{X_n-a_n|<\epsilon\}=1,
n→∞limP{Xn−an∣<ϵ}=1,
则称序列
X
1
,
X
2
,
⋯
,
X
n
,
⋯
X_1,X_2,\cdots,X_n,\cdots
X1,X2,⋯,Xn,⋯依概率收敛于
a
a
a。简记为
X
n
→
p
a
或
lim
n
→
∞
X
n
=
a
(
p
)
.
X_n \xrightarrow[]{p}a或 \lim_{n \to \infty}X_n=a(p).
Xnpa或n→∞limXn=a(p).
大数定律(LLN–Law of Large Numbers)
大数定律:一个随机变量序列依概率收敛于一个数。当n足够大的时候,它和这个数之间的差值小于任意一个小的常数的概率为1。
lim
n
→
∞
P
{
∣
X
n
−
a
∣
<
ϵ
}
=
1
\lim_{n \to \infty}P\{|X_n-a|<\epsilon\}=1
n→∞limP{∣Xn−a∣<ϵ}=1
看看我们之前介绍的抛掷硬币的试验,这不就是一个稳定性的意义嘛!当n足够大的时候,我们就可以说明这个随机序列稳定于一个已知的常数值。
它是用chebyshev不等式来进行证明的。
补:Chebyshev不等式:
设随机变量X的期望和方差均存在,则对任意
ϵ
>
0
,
\epsilon>0,
ϵ>0,有
P
(
∣
X
−
E
X
∣
≥
ϵ
)
≤
D
X
ϵ
2
,
P(|X-EX| \ge \epsilon) \le \cfrac{DX}{\epsilon^2},
P(∣X−EX∣≥ϵ)≤ϵ2DX,
等价形式为
P
(
∣
X
−
E
X
∣
<
ϵ
)
≥
1
−
D
X
ϵ
2
.
P(|X-EX| < \epsilon) \ge 1- \cfrac{DX}{\epsilon^2}.
P(∣X−EX∣<ϵ)≥1−ϵ2DX.
它使用积分的一些不等式的性质来证明。
马尔可夫大数定律(Markov LLN)
接下来引进Markov大数定律。
随机序列,如果它的均值的方差趋于0的话,则说明这个随机变量序列服从大数定律。
严谨点,课本定义:
(Markov大数定律)设
X
1
,
X
2
,
⋯
,
X
n
,
⋯
X_1,X_2,\cdots,X_n,\cdots
X1,X2,⋯,Xn,⋯是一个随机变量序列,每个随机变量的方差存在,且
1
n
2
D
(
∑
i
=
1
n
)
→
0
(
n
→
∞
)
\cfrac{1}{n^2}D(\sum_{i=1}^n) \to 0(n \to \infty)
n21D(∑i=1n)→0(n→∞),则此随机变量序列
{
X
n
}
\{X_n\}
{Xn}服从大数定律。
lim
n
→
∞
P
(
∣
X
ˉ
n
−
E
X
ˉ
n
∣
<
ϵ
)
=
1
\lim_{n \to \infty}P(|\bar{X}_n-E\bar{X}_n|<\epsilon)=1
n→∞limP(∣Xˉn−EXˉn∣<ϵ)=1
依旧是使用的是Chebyshev大数定律来证明的。
它表明,随机序列的均值方差趋于0的时候,说明随机变量列的算数平均值是稳定的,稳定于其期望的平均值。
切比雪夫大数定律(Chebyshev LLN)
Chebyshev大数定律:两两不相关的随机变量序列,当所有的变量序列中的每个变量的方差都存在,且有一个共同的上界时,则就说明这个随机变量序列服从大数定律。
严谨点,对应到课本:
设
X
1
,
X
2
,
⋯
,
X
n
⋯
X_1,X_2,\cdots,X_n\cdots
X1,X2,⋯,Xn⋯为两两不相关的随机变量列,每个随机变量的方差存在且具有公共上界,即
D
(
X
n
)
≤
C
,
n
=
1
,
2
,
⋯
,
D(X_n) \le C,n=1,2,\cdots,
D(Xn)≤C,n=1,2,⋯,则此随机变量序列
{
X
n
}
\{X_n\}
{Xn}服从大数定律。
lim
n
→
∞
P
(
∣
1
n
∑
i
=
1
n
X
i
−
E
(
1
n
∑
i
=
1
n
X
i
)
∣
<
ϵ
)
=
1
\lim_{n \to \infty}P(|\cfrac{1}{n} \sum_{i=1}^{n}X_i-E(\cfrac{1}{n} \sum_{i=1}^{n}X_i)|< \epsilon)=1
n→∞limP(∣n1i=1∑nXi−E(n1i=1∑nXi)∣<ϵ)=1
可以简单一点,直接使用Markov大数定律来证明,再原始一点,依旧可以用Chebyshev不等式来证明。
它表明,当试验次数n足够大的时候,随机变量序列的算数平均值具有稳定性。
它是Markov大数定律的特例。
伯努利大数定律(Bernoulli LLN)
Bernoulli大数定律:n重伯努利试验中,事件A发生的次数除以总试验次数依概率收敛于事件发生的概率。
对应到课本:
记
μ
n
\mu_n
μn为
n
n
n重伯努利试验中时间A出现的次数,设每次试验时间A出现的概率为
p
(
0
<
p
<
1
)
,
p(0<p<1),
p(0<p<1),则对任意
ϵ
>
0
,
\epsilon>0,
ϵ>0,有
lim
n
→
∞
P
(
∣
μ
n
n
−
p
∣
<
ϵ
)
=
1
\lim_{n \to \infty}P(|\cfrac{\mu_n}{n}-p|<\epsilon)=1
n→∞limP(∣nμn−p∣<ϵ)=1
是用Chebyshev大数定律来证明(某个随机事件发生的方差是小于等于1/4,基本不等式可以说明)。再将n个随机试验中每个事件发生的情况累积起来,对其使用Chebyshev大数定律。
它表明,当样本容量足够大的时候,随机事件发生的频率依概率收敛于其发生的概率。这就说明了频率具有稳定性了,稳定于其发生的概率。
辛钦大数定律(Wiener-khinchin LLN)
辛钦大数定律,是从另外一个角度来说明大数定律的。
独立同分布的随机变量序列,如果序列中的每个随机变量的偶有有限的均值,则当对于任意小的一个正数,随机变量序列序列的平均数依概率收敛于随机序列的期望值。
对应到课本:
设
X
1
,
X
2
,
⋯
,
X
n
,
⋯
X_1,X_2,\cdots,X_n,\cdots
X1,X2,⋯,Xn,⋯是独立同分布的随机变量序列,若期望
E
X
n
=
μ
(
n
=
1
,
2
,
⋯
)
EX_n=\mu(n=1,2,\cdots)
EXn=μ(n=1,2,⋯)有限,则对任意
ϵ
>
0
,
\epsilon>0,
ϵ>0,有:
lim
n
→
∞
P
(
∣
1
n
∑
i
=
1
n
X
i
−
μ
∣
<
ϵ
)
=
1
\lim_{n \to \infty}P(\vert \cfrac{1}{n} \sum_{i=1}^n X_i-\mu|<\epsilon)=1
n→∞limP(∣n1i=1∑nXi−μ∣<ϵ)=1
它表明,对X的n次观测的结果依概率收敛于X的期望值。这就提供一个估计随机变量期望的一个方法,利用n个随机变量序列的均值来进行估计随机变量的真实期望。
它与之前提及到的大数定律有所不同,即利用独立同分布的条件来代替对随机变量数列的方差的要求。
大数定律–总结
- 当一串随机变量列的期望存在,且满足马尔可夫条件,则可以用随机变量列的算数平均数来作为对其期望的一个估计。
- 当随机变量方差存在,且两两不相关时,则可以使用随机变量的平均数来作为对平均数期望的一个估计。
- 在条件相同的独立重复试验中,当试验次数n足够大的时候,其频率稳定于真实概率。它是格里汶科定理的数学基础。
- 独立同分布的随机变量列,期望有限,当n试验重复的次数足够大的时候,随机变量列的算数平均数,稳定与随机变量的真实期望(随机变量独立同分布,所以他们的期望相同)。伯努利大数定律是辛钦大数定律的特例。
中心极限定理(CLT–Central Limit Theorem)
不同于大数定律,中心极限定理,不是从随机变量某个值的稳定性的角度来考虑稳定性的,而是从分布的稳定性来考虑随机变量的稳定性。
林德伯格-列维中心极限定理(Lindburg-Levy CLT)
首先引入的是林德伯格-列维中心极限定理。
独立同分布的随机变量序列
X
1
,
X
2
,
⋯
,
X
n
X_1,X_2,\cdots,X_n
X1,X2,⋯,Xn的和
∑
i
=
1
n
X
i
\sum_{i=1}^nX_i
∑i=1nXi服从正态分布
N
(
n
μ
,
n
σ
2
)
N(n\mu, n\sigma^2)
N(nμ,nσ2),这个正态分布均值为
n
μ
n\mu
nμ,方差为n个随机变量方差的和
n
σ
2
n\sigma^2
nσ2。
对应到课本:
设随机变量序列
{
X
n
}
,
n
=
1
,
2
,
⋯
,
i
.
i
.
d
.
,
\{X_n\},n=1,2,\cdots,i.i.d.,
{Xn},n=1,2,⋯,i.i.d.,具有有限的期望和方差,
E
X
n
=
μ
,
D
X
n
=
σ
2
≠
0
,
n
=
1
,
2
,
⋯
,
EX_n=\mu,DX_n=\sigma^2 \neq0,n=1,2,\cdots,
EXn=μ,DXn=σ2=0,n=1,2,⋯,则随机变量
Y
n
=
∑
i
=
1
n
X
i
−
n
μ
n
σ
Y_n = \cfrac{\sum_{i=1}^{n}X_i-n\mu}{\sqrt n \sigma}
Yn=nσ∑i=1nXi−nμ
的分布函数为
F
n
(
x
)
F_n(x)
Fn(x),对任意的实数
x
x
x,有
lim
n
→
∞
F
n
(
x
)
=
lim
n
→
∞
P
{
∑
i
=
1
n
X
i
−
n
μ
n
σ
≤
x
}
=
1
2
π
∫
−
∞
x
e
−
t
2
2
d
t
.
\begin{aligned} \lim_{n \to \infty}F_n(x)&=\lim_{n \to \infty}P \Bigg\{ \cfrac{\sum_{i=1}^nX_i-n\mu}{\sqrt{n}\sigma} \le x \Bigg\} \\ &=\cfrac{1}{\sqrt{2\pi}} \int_{-\infty}^{x} e^{-\small { \cfrac{t^2}{2}} } \rm dt. \end{aligned}
n→∞limFn(x)=n→∞limP{nσ∑i=1nXi−nμ≤x}=2π1∫−∞xe−2t2dt.
也就是说
Y
n
∼
近似
N
(
n
μ
,
n
σ
2
)
Y_n\stackrel{\text{近似}}{\sim} N(n\mu, n\sigma^2)
Yn∼近似N(nμ,nσ2)
一般是样本容量大于30的时候,随机变量的和服从正态分布。
隶莫弗-拉普拉斯中心极限定理(De Moivre-Laplace CLT)
再引入隶莫弗-拉普拉斯中心极限定理。
表明n重伯努利试验事件A出现的次数服从正态分布。
对应到课本:
设
μ
n
\mu_n
μn为n冲独立伯努利试验中时间A出现的次暑,一直每次试验时间A出现的概率为
p
(
0
<
p
<
1
)
,
p(0<p<1),
p(0<p<1),则对任意
x
,
x,
x,有
lim
n
→
∞
P
(
μ
n
−
n
p
n
p
(
1
−
p
)
≤
x
)
=
1
2
π
∫
−
∞
x
e
−
t
2
2
d
t
.
\lim_{n \to \infty}P\Big (\cfrac{\mu_n-np}{\sqrt{np(1-p)}} \le x \Big)=\cfrac{1}{\sqrt{2\pi}} \int_{-\infty}^{x}e^{-\small { \cfrac{t^2}{2}} } \rm dt.
n→∞limP(np(1−p)μn−np≤x)=2π1∫−∞xe−2t2dt.
一般用于计算总体成数和频率的估计。
关系
- 大数定律是依概率收敛;中心极限定理是依分布收敛。
由于依概率收敛是强收敛,依分布收敛是弱收敛,强收敛可以推出弱收敛,因此可由大数定律推出中心极限定理。(具体知识可参考实变函数课本) - 都是当试验次数n足够大(30)的时候,一种稳定性的表示;大数定律,表明某个随机变量序列的某个值具有稳定性,而大数定律则表明随机变量序列的分布具有某种稳定性。
- 他们都一种极限形式。大数定律表明概率或者均值的极限,而中心极限定理则表明分布的极限。
参考怎样理解和区分中心极限定理与大数定律? - 超级萌萌哒猫猫的回答 - 知乎,大数定律像数理统计里面的点估计,中心极限定理不仅给出了点的估计,而且还给出了估计的范围,且知道落在这个置信区间中的置信概率是多少,也就是给出了区间估计(置信区间)。
参考
latex 波浪线上加文字
Latex数学公式-各类括号总结
后言
我又拖拖拖了好久,这又是我所不会的地方。
只能说自己会的东西都太少吧,自己了解的东西太少,好多都是借鉴别人的,很难有自己的思考。
现在我不再觉得我是一个善于思考的人了,我应该是一个搬运工吧。
可,搬运工也是在搬运了多次之后,慢慢会获得新得思考然后取得超然的进步的呀。
让我们继续。