公式
P { ∣ X − μ ∣ < ε } ≥ 1 − σ 2 ε 2 P\{|X-\mu|<\varepsilon\} \geq 1-\frac{\sigma^2}{\varepsilon^2} P{∣X−μ∣<ε}≥1−ε2σ2
注:随机变量 X X X必须具有数学期望 E ( X ) = μ E(X)=\mu E(X)=μ,方差 D ( X ) = σ 2 D(X)=\sigma^2 D(X)=σ2, ε \varepsilon ε为任意正数。
理解
在任意一个数据集中,位于其平均数
m
m
m个标准差范围内的比例总是至少为
1
-
1
m
2
1-\frac{1}{m^2}
1-m21。
标准差为
σ
\sigma
σ,
当
ε
=
2
σ
\varepsilon=2\sigma
ε=2σ时:所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。
当
ε
=
3
σ
\varepsilon=3\sigma
ε=3σ时:所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。
当
ε
=
5
σ
\varepsilon=5\sigma
ε=5σ时:所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内。
相对于高斯分布来说,
1
σ
1\sigma
1σ原则:数值分布在
(
μ
—
σ
,
μ
+
σ
)
(μ—σ, μ+σ)
(μ—σ,μ+σ)中的概率为0.6826
2
σ
2\sigma
2σ原则:数值分布在
(
μ
—
2
σ
,
μ
+
2
σ
)
(μ—2σ, μ+2σ)
(μ—2σ,μ+2σ)中的概率为0.9544
3
σ
3\sigma
3σ原则:数值分布在
(
μ
—
3
σ
,
μ
+
3
σ
)
(μ—3σ, μ+3σ)
(μ—3σ,μ+3σ)中的概率为0.9974
即:
落入
μ
±
σ
\mu\pm\sigma
μ±σ 的概率大约为68.26%
落入
μ
±
2
σ
\mu\pm2\sigma
μ±2σ 的概率大约为95.44%
落入
μ
±
3
σ
\mu\pm3\sigma
μ±3σ 的概率高达99.74%
3 σ 3\sigma 3σ准则(拉依达准则)
它是指先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。这种判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提的,当测量次数少的情形用准则剔除粗大误差是不够可靠的。
所以如果把切比雪夫不等式用于高斯分布的数据集,会得到一个非常保守、粗糙的上下界。
切比雪夫不等式的意义在于,它虽然是一个粗糙的估计,但是适用于任意分布的数据集和任意的正数 ε \varepsilon ε。
应用
这个用例来自知乎
附图是欧元一小时的价格走势,红线为20日
μ
\mu
μ、绿线基于
μ
\mu
μ的2倍标准差,蓝线为3倍标准差,黄线为5倍标准差。