【概率论】6-4:分布连续性修正(The Correction for Continuity)

Abstract: 本文介绍如何使用中心极限定理,将某区间上离散的随机变量,用一段连续的正态分布来近似
Keywords: The Central Limit Theorem,Approximation

分布连续性修正

本篇应该是初等概率论的最后一篇博客,一路写下来,激动过,怀疑过,痛苦过,沮丧过,但是看着满屏幕的文字,和一些以前不知道的知识,感觉还是有收获的,虽然有些知识不能变现,但是,收益终生。我怎么知道会收益终生?如果想确定这个观点,基本要去问死了的人,因为你有死前的一瞬间,才知道什么东西在你一生中有用。但是我这么说是基于古人的观点,因为那么多古人都死过,而且他们都说读书学习非常有用,所以我选择相信那些死了的人说的话,而不是活着的——那些看起来活的还不错的人(读书无用论的那些)。

本文使用中心极限定理,通过这段区间 [ a , b ] [a,b] [a,b] 上的某个正态分布的随机变量的概率,近似某区间上的离散随机变量,并且可以通过简单的调整 P r ( X = a ) , P r ( X = b ) Pr(X=a),Pr(X=b) Pr(X=a),Pr(X=b) 的近似程度,来提高整体近似度

连续分布近似离散分布 Approximating a Discrete Distribution by a Continuous Distribution


🌰 :
对于一个大的样本,6.3中我们讲了正态分布 μ = 50 , σ 2 = 25 \mu=50,\sigma^2=25 μ=50,σ2=25 可以用来近似 n = 100 , p = 0.5 n=100,p=0.5 n=100,p=0.5 的二项分布随机变量 X X X 。特别的,如果 Y Y Y μ = 50 , σ 2 = 25 \mu=50,\sigma^2=25 μ=50,σ2=25 的正态分布,我们知道 P r ( Y ≤ X ) Pr(Y\leq X) Pr(YX) 对于所有 x x x 近似于 P r ( X ≤ x ) Pr(X\leq x) Pr(Xx) 但是有对称的误差,如图

可以看出,离散随机变量X的c.d.f.在图中是阶梯状的,因为其变量对应的为整数,所以每个阶梯左右端点对应的是整数,那么在 [ 30 , 70 ] [30,70] [30,70] 区间上,可见连续随机变量的c.d.f穿过所有的离散阶梯的中心部分,也就是 n + 0.5 n+0.5 n+0.5 这里对于两个分布是相等,中间左半部分 [ n , n + 0.5 ) [n,n+0.5) [n,n+0.5) 离散的c.d.f较大,反之,右半部分连续的c.d.f.较大。

我们应该可以利用这个特点对近似做一点优化。因为我们想要个一致的近似,比如总是大于总是小于的近似,而不是一个一会儿大一会小的近似。


接下来我们讨论针对上面例子这种情况下的一种标准做法,来提高近似的质量,主要的突破点就是那个对称的误差。
f ( x ) f(x) f(x) 为离散随机变量 X X X 的p.f. ,然后用连续的随机变量的p.d.f. g ( x ) g(x) g(x) 来近似 f ( x ) f(x) f(x) 我们可以设连续随机变量 Y Y Y 的 p.d.f. 是 g g g ,我们设所有可能的 X X X 都是整数,这个条件适用于我们前面介绍过的所有离散分布,二项分布,泊松分布,超几何分布等。我们可以通过以下这两个关系之间相等进行近似:
P r ( a ≤ X ≤ b ) = ∑ x = a b f ( x ) Pr(a\leq X\leq b)=\sum^{b}_{x=a}f(x) Pr(aXb)=x=abf(x)
以及
P r ( a ≤ Y ≤ b ) = ∫ a b g ( x ) d x (6.4.2) Pr(a\leq Y\leq b)=\int^{b}_{a}g(x)dx\tag{6.4.2} Pr(aYb)=abg(x)dx(6.4.2)

只要让上面这两个概率相等就能得到一个高质量的近似,根据上一篇关于中心极限定理也可以得出 g g g 是一个正态分布的p.d.f.

但是这个简单近似有很多不足,比如说对于离散分布经常会有 P r ( X ≥ a ) ≠ P r ( X > a ) Pr(X\geq a)\neq Pr(X>a) Pr(Xa)=Pr(X>a) 而对于连续随机变量则有 P r ( Y ≥ a ) = P r ( Y > a ) Pr(Y\geq a) = Pr(Y>a) Pr(Ya)=Pr(Y>a)

上面的近似有点黎曼积分的意思在里面,大家可以参考数学分析书籍进行理解,因为不能取极限,所以分析误差就变成了重要的一个环节。

近似直方图 Approximating a Bar Chart

接着我们来看如何近似一个直方图,直方图的理论依据在大数定理中已经进行了证明,今天我们来看如何用连续分布的p.d.f.来近似一个直方图。

同样,直方图的面积对应的就是概率(高度和面积一样,因为宽度是1)但是我们和上面的处理方法不同,前面的处理方法是从整数到下一个整数,对应一个概率,这里改成从负半个整数到正半个整数作为一个概率,所以根据坐标来求和,区间 [ a − 1 2 , b + 1 2 ] [a-\frac{1}{2},b+\frac{1}{2}] [a21,b+21] 上条形图的面积近似于积分结果:
P r ( a − 1 2 < Y < b + 1 2 ) = ∫ a − 1 2 b + 1 2 g ( x ) d x Pr(a-\frac{1}{2} < Y < b+\frac{1}{2})=\int^{b+\frac{1}{2}}_{a-\frac{1}{2}}g(x)dx Pr(a21<Y<b+21)=a21b+21g(x)dx
这个相比于 6.4.2 叫做连续性修正。当然修正后的更准确一些,从图像也能看出来,或者模拟实验也能得出结果。


有了上面的修正结论,我们就可以对第一个例子进行优化了。
比如我们用 P r ( Y ≤ x + 0.5 ) Pr(Y\leq x+0.5) Pr(Yx+0.5) 来替代 P r ( Y ≤ x ) Pr(Y\leq x) Pr(Yx) 来近似 P r ( X ≤ x ) Pr(X\leq x) Pr(Xx)
或者用 P r ( Y ≤ x − 0.5 ) Pr(Y\leq x-0.5) Pr(Yx0.5) 来替代 P r ( Y ≤ x ) Pr(Y\leq x) Pr(Yx) 来近似 P r ( X ≤ x ) Pr(X\leq x) Pr(Xx) 都能得出优于前面的结论,但是图像会变成这样:

移动后的连续分布更能近似不移动的分布


总结

一个只能取整数的离散随机变量,用正态分布来近似某个区间,如果按照整数进行分段(如 [ 2 , 3 ) [2,3) [2,3)),近似效果不如半个整数分段(比如 [ 1.5 , 2.5 ) [1.5,2.5) [1.5,2.5) ).

本文为概率论初级博客的收官之作,主要讲如何用连续分布来近似离散分布,这个也是要在统计中使用的技术,或者直接叫做拟合或者回归也可以,所以可见我们后面这些课都是为了为数理统计铺路的,至此概率论讲解完毕,我们继续我们的学习路线!加油。

原文地址1:https://www.face2ai.com/Math-Probability-6-4-The-Correction-for-Continuity转载请标明出处

  • 6
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值