Abstract: 本文介绍如何使用中心极限定理,将某区间上离散的随机变量,用一段连续的正态分布来近似
Keywords: The Central Limit Theorem,Approximation
分布连续性修正
本篇应该是初等概率论的最后一篇博客,一路写下来,激动过,怀疑过,痛苦过,沮丧过,但是看着满屏幕的文字,和一些以前不知道的知识,感觉还是有收获的,虽然有些知识不能变现,但是,收益终生。我怎么知道会收益终生?如果想确定这个观点,基本要去问死了的人,因为你有死前的一瞬间,才知道什么东西在你一生中有用。但是我这么说是基于古人的观点,因为那么多古人都死过,而且他们都说读书学习非常有用,所以我选择相信那些死了的人说的话,而不是活着的——那些看起来活的还不错的人(读书无用论的那些)。
本文使用中心极限定理,通过这段区间 [ a , b ] [a,b] [a,b] 上的某个正态分布的随机变量的概率,近似某区间上的离散随机变量,并且可以通过简单的调整 P r ( X = a ) , P r ( X = b ) Pr(X=a),Pr(X=b) Pr(X=a),Pr(X=b) 的近似程度,来提高整体近似度
连续分布近似离散分布 Approximating a Discrete Distribution by a Continuous Distribution
🌰 :
对于一个大的样本,6.3中我们讲了正态分布
μ
=
50
,
σ
2
=
25
\mu=50,\sigma^2=25
μ=50,σ2=25 可以用来近似
n
=
100
,
p
=
0.5
n=100,p=0.5
n=100,p=0.5 的二项分布随机变量
X
X
X 。特别的,如果
Y
Y
Y 有
μ
=
50
,
σ
2
=
25
\mu=50,\sigma^2=25
μ=50,σ2=25 的正态分布,我们知道
P
r
(
Y
≤
X
)
Pr(Y\leq X)
Pr(Y≤X) 对于所有
x
x
x 近似于
P
r
(
X
≤
x
)
Pr(X\leq x)
Pr(X≤x) 但是有对称的误差,如图
可以看出,离散随机变量X的c.d.f.在图中是阶梯状的,因为其变量对应的为整数,所以每个阶梯左右端点对应的是整数,那么在
[
30
,
70
]
[30,70]
[30,70] 区间上,可见连续随机变量的c.d.f穿过所有的离散阶梯的中心部分,也就是
n
+
0.5
n+0.5
n+0.5 这里对于两个分布是相等,中间左半部分
[
n
,
n
+
0.5
)
[n,n+0.5)
[n,n+0.5) 离散的c.d.f较大,反之,右半部分连续的c.d.f.较大。
我们应该可以利用这个特点对近似做一点优化。因为我们想要个一致的近似,比如总是大于总是小于的近似,而不是一个一会儿大一会小的近似。
接下来我们讨论针对上面例子这种情况下的一种标准做法,来提高近似的质量,主要的突破点就是那个对称的误差。
让
f
(
x
)
f(x)
f(x) 为离散随机变量
X
X
X 的p.f. ,然后用连续的随机变量的p.d.f.
g
(
x
)
g(x)
g(x) 来近似
f
(
x
)
f(x)
f(x) 我们可以设连续随机变量
Y
Y
Y 的 p.d.f. 是
g
g
g ,我们设所有可能的
X
X
X 都是整数,这个条件适用于我们前面介绍过的所有离散分布,二项分布,泊松分布,超几何分布等。我们可以通过以下这两个关系之间相等进行近似:
P
r
(
a
≤
X
≤
b
)
=
∑
x
=
a
b
f
(
x
)
Pr(a\leq X\leq b)=\sum^{b}_{x=a}f(x)
Pr(a≤X≤b)=x=a∑bf(x)
以及
P
r
(
a
≤
Y
≤
b
)
=
∫
a
b
g
(
x
)
d
x
(6.4.2)
Pr(a\leq Y\leq b)=\int^{b}_{a}g(x)dx\tag{6.4.2}
Pr(a≤Y≤b)=∫abg(x)dx(6.4.2)
只要让上面这两个概率相等就能得到一个高质量的近似,根据上一篇关于中心极限定理也可以得出 g g g 是一个正态分布的p.d.f.
但是这个简单近似有很多不足,比如说对于离散分布经常会有 P r ( X ≥ a ) ≠ P r ( X > a ) Pr(X\geq a)\neq Pr(X>a) Pr(X≥a)=Pr(X>a) 而对于连续随机变量则有 P r ( Y ≥ a ) = P r ( Y > a ) Pr(Y\geq a) = Pr(Y>a) Pr(Y≥a)=Pr(Y>a)
上面的近似有点黎曼积分的意思在里面,大家可以参考数学分析书籍进行理解,因为不能取极限,所以分析误差就变成了重要的一个环节。
近似直方图 Approximating a Bar Chart
接着我们来看如何近似一个直方图,直方图的理论依据在大数定理中已经进行了证明,今天我们来看如何用连续分布的p.d.f.来近似一个直方图。
同样,直方图的面积对应的就是概率(高度和面积一样,因为宽度是1)但是我们和上面的处理方法不同,前面的处理方法是从整数到下一个整数,对应一个概率,这里改成从负半个整数到正半个整数作为一个概率,所以根据坐标来求和,区间
[
a
−
1
2
,
b
+
1
2
]
[a-\frac{1}{2},b+\frac{1}{2}]
[a−21,b+21] 上条形图的面积近似于积分结果:
P
r
(
a
−
1
2
<
Y
<
b
+
1
2
)
=
∫
a
−
1
2
b
+
1
2
g
(
x
)
d
x
Pr(a-\frac{1}{2} < Y < b+\frac{1}{2})=\int^{b+\frac{1}{2}}_{a-\frac{1}{2}}g(x)dx
Pr(a−21<Y<b+21)=∫a−21b+21g(x)dx
这个相比于 6.4.2 叫做连续性修正。当然修正后的更准确一些,从图像也能看出来,或者模拟实验也能得出结果。
有了上面的修正结论,我们就可以对第一个例子进行优化了。
比如我们用
P
r
(
Y
≤
x
+
0.5
)
Pr(Y\leq x+0.5)
Pr(Y≤x+0.5) 来替代
P
r
(
Y
≤
x
)
Pr(Y\leq x)
Pr(Y≤x) 来近似
P
r
(
X
≤
x
)
Pr(X\leq x)
Pr(X≤x) ,
或者用
P
r
(
Y
≤
x
−
0.5
)
Pr(Y\leq x-0.5)
Pr(Y≤x−0.5) 来替代
P
r
(
Y
≤
x
)
Pr(Y\leq x)
Pr(Y≤x) 来近似
P
r
(
X
≤
x
)
Pr(X\leq x)
Pr(X≤x) 都能得出优于前面的结论,但是图像会变成这样:
移动后的连续分布更能近似不移动的分布
总结
一个只能取整数的离散随机变量,用正态分布来近似某个区间,如果按照整数进行分段(如 [ 2 , 3 ) [2,3) [2,3)),近似效果不如半个整数分段(比如 [ 1.5 , 2.5 ) [1.5,2.5) [1.5,2.5) ).
本文为概率论初级博客的收官之作,主要讲如何用连续分布来近似离散分布,这个也是要在统计中使用的技术,或者直接叫做拟合或者回归也可以,所以可见我们后面这些课都是为了为数理统计铺路的,至此概率论讲解完毕,我们继续我们的学习路线!加油。
原文地址1:https://www.face2ai.com/Math-Probability-6-4-The-Correction-for-Continuity转载请标明出处