切比雪夫不等式证明及应用
切比雪夫(1821~1894),俄文原名Пафну́тий Льво́вич Чебышёв,译名帕夫努季·利沃维奇·切比雪夫,俄罗斯数学家。他对概率、统计学、力学和数论领域均有重大贡献,被誉为俄罗斯数学之父。许多重要的数学概念都是以他的名字命名,包括切比雪夫不等式(本文将要介绍的内容,其用于辛钦大数定理的证明)、伯特兰-切比雪夫定理、切比雪夫多项式和切比雪夫偏差。
1 背景
辛钦大数定理(弱大数定理),证明了当样本数越多,其算术平均值就有越高的概率接近期望值,学术表示为样本均值依概率收敛于期望值。而本文将要介绍的是辛钦大数定理证明中要用到的切比雪夫不等式。
2 定义
切比雪夫不等式:设随机变量
X
X
X具有数学期望
E
(
X
)
=
μ
E\left( X \right) = \mu
E(X)=μ,方差
D
(
X
)
=
σ
2
D\left( X \right) =\sigma^2
D(X)=σ2,则对于任意正数
ε
\varepsilon
ε,不等式
P
{
∣
X
−
μ
∣
≥
ε
}
≤
σ
2
ε
2
(1)
P \{ |X-\mu| \ge \varepsilon \} \le \frac{\sigma^2}{\varepsilon^2} \tag{1}
P{∣X−μ∣≥ε}≤ε2σ2(1)
或
P
{
∣
X
−
μ
∣
<
ε
}
≥
1
−
σ
2
ε
2
(2)
P \{ |X-\mu| < \varepsilon \} \ge 1-\frac{\sigma^2}{\varepsilon^2} \tag{2}
P{∣X−μ∣<ε}≥1−ε2σ2(2)
成立。
3 预备知识
本文仅以连续型随机变量为例,离散型随机变量证明同理可得。在此之前我们来复习一下连续型随机变量的概率密度以及定积分保号性。
3.1 连续型随机变量及其概率密度
定义:对于随机变量
X
X
X的分布函数
F
(
X
)
F(X)
F(X),存在非负可积函数
f
(
x
)
f(x)
f(x),使对于任意实数
x
x
x有
F
(
x
)
=
∫
−
∞
x
f
(
t
)
d
x
F(x)=\int_{-\infty}^{x}{f(t)dx}
F(x)=∫−∞xf(t)dx
则称
X
X
X为连续性随机变量,
f
(
x
)
f(x)
f(x)称为
X
X
X的概率密度函数,简称概率密度。由定义可知概率密度
f
(
x
)
f(x)
f(x)具有如下性质:
- f ( x ) ≥ 0 ; f(x)\ge0; f(x)≥0;
- ∫ − ∞ − ∞ f ( x ) d x = 1 ; \int_{-\infty}^{-\infty}{f(x)dx}=1; ∫−∞−∞f(x)dx=1;
- 对于任意实数 x 1 , x 2 ( x 1 ≤ x 2 ) , x_1, x_2(x_1\le x_2), x1,x2(x1≤x2), P { x 1 < X ≤ x 2 } = F ( X 2 ) − F ( x 1 ) = ∫ x 1 x 2 f ( x ) d x ; P\{ x_1<X \le x_2 \}=F(X_2)-F(x_1)=\int_{x_1}^{x_2}{f(x)dx}; P{x1<X≤x2}=F(X2)−F(x1)=∫x1x2f(x)dx;
- 若 f ( x ) f(x) f(x)在点 x x x处连续,则有 F ′ = f ( x ) . F^{'}=f(x). F′=f(x).
反之,若 f ( x ) f(x) f(x)具备性质1,2,引入 G ( x ) = ∫ − ∞ − ∞ f ( t ) d t G(x)=\int_{-\infty}^{-\infty}{f(t)dt} G(x)=∫−∞−∞f(t)dt,他是某一处随机变量 X X X的分布函数, f ( x ) f(x) f(x)是 X X X的概率密度。
3.2 定积分保号性
定义:如果在区间
[
a
,
b
]
[a, b]
[a,b]上
f
(
x
)
≤
g
(
x
)
f(x)\le g(x)
f(x)≤g(x),那么
∫
a
b
f
(
x
)
d
x
≤
∫
a
b
g
(
x
)
d
x
,
(
a
≤
b
)
。
\int_{a}^{b}{f(x)dx}\le \int_{a}^{b}{g(x)dx} ,(a\le b)。
∫abf(x)dx≤∫abg(x)dx,(a≤b)。
4 证明
接下来我们开始证明切比雪夫不等式,设
X
X
X为连续型随机变量,其概率密度函数为
f
(
X
)
f\left( X\right)
f(X)。则
P
{
∣
X
−
μ
∣
≥
ε
}
=
∫
∣
X
−
μ
∣
≥
ε
f
(
x
)
d
x
≤
∫
∣
X
−
μ
∣
≥
ε
∣
X
−
μ
∣
2
ε
2
f
(
x
)
d
x
≤
1
ε
2
∫
−
∞
∞
(
x
−
μ
)
2
f
(
x
)
d
x
=
σ
2
ε
2
(3)
\begin{aligned} P\{ |X-\mu| \ge \varepsilon \} &= \int_{|X-\mu| \ge \varepsilon}{f\left( x \right)}dx \tag{3}\\ &\le \int_{|X-\mu| \ge \varepsilon}{\frac{|X-\mu|^2}{\varepsilon^2}f\left(x\right)dx} \\ &\le \frac{1}{\varepsilon^2} \int_{-\infty}^{\infty}{\left(x-\mu\right)^2f\left(x\right)}dx\\ &=\frac{\sigma^2}{\varepsilon^2} \end{aligned}
P{∣X−μ∣≥ε}=∫∣X−μ∣≥εf(x)dx≤∫∣X−μ∣≥εε2∣X−μ∣2f(x)dx≤ε21∫−∞∞(x−μ)2f(x)dx=ε2σ2(3)
其中第一行根据概率密度的定义可得,但是我们需要注意概率的定义,切记不要在求概率时用错;因为
1
≤
∣
X
−
μ
∣
2
ε
2
1\le \frac{|X-\mu|^2}{\varepsilon^2}
1≤ε2∣X−μ∣2和概率密度性质1,则第一行到第二行根据定积分保号性可得;第二行到第三行则将积分限放缩到实域可得;而第四行中的积分项则为方差的定义式,由此证毕。基于概率的规范性可将公式(1)化为公式(2)。
5 应用
切比雪夫不等式给出了在随机变量的分布未知,而只需要知道
E
(
X
)
E(X)
E(X)和
D
(
X
)
D(X)
D(X)的情况下估计概率
P
{
∣
X
−
E
(
X
)
∣
<
ε
}
P\{|X-E(X)|<\varepsilon\}
P{∣X−E(X)∣<ε}的界限。我们比较熟悉的为
3
σ
2
3\sigma^2
3σ2原则。设
D
(
X
)
=
σ
2
D(X)=\sigma^2
D(X)=σ2,在不等式中取
ε
=
2
σ
,
3
σ
,
4
σ
\varepsilon=\red2\sigma, \red3\sigma, \red4\sigma
ε=2σ,3σ,4σ得到
P
{
∣
X
−
E
(
X
)
∣
≥
m
σ
}
≤
σ
2
m
2
=
1
m
2
P\{|X-E(X)|\ge \red m \sigma\} \le \frac{\sigma^2}{\red m^2}=\frac{1}{\red m^2}
P{∣X−E(X)∣≥mσ}≤m2σ2=m21
则,
P
{
∣
X
−
E
(
X
)
∣
<
2
σ
}
≥
1
−
1
4
=
3
4
=
75
%
.
P\{|X-E(X)|< \red 2 \sigma\} \ge 1- \frac{1}{\red 4}=\frac{3}{4}=75\%.
P{∣X−E(X)∣<2σ}≥1−41=43=75%.
更多内容请关注公众号:Herbie
6 参考文献
[1] https://en.wikipedia.org/wiki/Pafnuty_Chebyshev
[2] 同济大学数学系. 高等数学·上册[M]. 高等教育出版社, 2014.
[3] 盛骤, 谢式千, 潘承毅. 概率论与数理统计[M]. 高等教育出版社, 2010.