泊松分布的分布函数_如何深刻理解泊松分布?

大多数学校的统计学悲剧在于它是多么愚蠢。老师们花费数小时来研究导数,方程式和定理,当您最终达到最佳效果时(将概念应用于实际数字),就会出现一些无关紧要,没有想象力的示例,例如:掷骰子。遗憾的是,如果您跳过推导(您可能永远不需要),而专注于使用这些想法来解决有趣的问题,那么统计数据就很有趣。

在本文中,我们将介绍两个重要的概率概念:泊松过程和泊松分布。在仅强调相关理论之后,我们将通过一个真实的示例进行展示,将方程式和图形的思想置于上下文中.

泊松过程

泊松过程是一系列离散事件的模型,其中:

  1. 平均时间:事件之间的间隔时间是已知的,但是事件的确切时间是随机的。

  2. 事件的到达与之前的事件无关(事件之间的等待时间是无记忆的)。例如,假设我们拥有一个网站,我们的内容交付网络(CDN)告诉我们该网站平均每60天出现一次故障,但一个故障不会影响下一个故障的可能性。我们所知道的是两次故障之间的平均时间。这是一个泊松过程,如下所示:

9838660d34d4292687ecceb3d34dde1b.png

重要的一点是我们知道事件之间的平均时间,但是它们是随机间隔的(随机的)。我们可能会遇到不相关的故障,但是由于过程的随机性,我们之间也可能会间隔数年(小概率)。

一个泊松过程符合以下标准(在现实中建模为泊松过程不符合这些正是许多现象):

  1. 事件彼此独立:一个事件的发生不影响另一事件发生的可能性。

  2. 平均速率(每个时间段的事件)是恒定的(任何时间段内)。

  3. 两个事件不能同时发生。

最后一点事件不是同时发生的意味着我们可以将泊松过程的每个子间隔都视为伯努利试验,即成功或失败。对于我们的网站,整个时间间隔可能为600天,但是每个子间隔(一天)都会使我们的网站出现故障或没有中断。

泊松过程的常见示例是客户呼叫中心,访问网站的访客,原子的放射性衰变,到达太空望远镜的光子以及股价的变动。泊松过程通常与时间相关,但不一定如此。关于股价,我们可能知道每天的平均移动量(每次事件),同时我们也可以对一英亩的树木数量(每个区域事件)进行泊松过程。

(通常会为Poisson Process提供一个实例,例如公交车到站(或火车或现在的Uber)。但是,这并不是真正的Poisson过程,因为到站之间并不是相互独立的。即使对于未按时运行的公交系统,一辆公交车是否晚会影响下一趟公交车的到达时间。JakeVanderPlas撰写了一篇很棒的文章,介绍了将Poisson流程应用于公交车的到站时间,这种方法对虚假数据比实际数据进行校准更有效。)

泊松分布

泊松过程:我们使用在随机发生的事件,但这

没有多大用处。我们需要泊松分布来做一些有趣的事情,例如,查找某个时间段内多个事件的概率或查找直到下一个事件等待一段时间的概率。泊松分布概率质量函数给出了在给定时间段的长度和每个时间的平均事件的情况下,在一个时间段内观察k个事件的概率:

e202d8724115511276062ea9eedfd583.png

这有点令人费解,事件/时间*时间段通常简化为单个参数λ, λ,速率参数。通过这种替换,泊松分布概率函数现在具有一个参数:

b752d8ccaed98f7b63f66f7fe2e5180e.png

可以将Lambda视为间隔中预期的事件数。(我们将切换为时间间隔,因为请记住,我们不必使用时间段,我们可以根据泊松过程使用面积或体积)。我喜欢写出lambda来提醒自己,rate参数是每个时间的平均事件和时间段长度的函数,但是最常见的是上面的参数。

当我们更改速率参数λ时,我们更改了在一个时间间隔内看到不同事件数量的概率。下图是泊松分布的概率质量函数,显示了在具有不同速率参数的时间间隔内发生多个事件的概率。

d080af6ac4b15ab5389226b7d972ecc9.png

每条曲线的间隔中最可能发生的事件数是events = rate参数情况下。这是有道理的,因为rate参数是间隔中预期的事件数,因此,当它是整数时,rate参数时间数将是概率最大的事件数。

如果它不是整数,则事件的最高概率数将是与rate参数最接近的整数,因为泊松分布仅针对离散数量的事件进行定义。泊松分布的离散性质也是为什么这是概率质量函数而不是密度函数的原因。(rate参数也是分布的均值和方差,不必为整数。)

我们可以使用泊松分布质量函数来找到在泊松过程生成的时间间隔内观察多个事件的概率。质量函数方程式的另一种用法(我们将在后面看到)是找到事件之间等待一段时间的概率。

一个具体的例子

对于我们将通过Poisson分布解决的问题,我们可以继续处理网站故障,但我提出了更宏大的建议。在我的童年时期,父亲经常带我去院子里观察(或尝试观察)流星雨。我们不是太空极客,但是即使在最冷的月份似乎总是发生流星雨,看着外太空燃烧的物体足以将我们吸引到室外。

由于流星是独立的,每小时平均流星数是恒定的(短期内),而且流星的数目不是恒定的,因此流星的数目可以建模为泊松分布。为了表征泊松分布,我们所需要的只是速率参数,它是事件数/间隔*间隔长度。从我记得,我们被告知要期待每小时5颗流星或1个流星/每12分钟。由于幼儿的耐心有限(尤其是在寒冷的夜晚),我们从来没有停留超过60分钟,因此我们将其作为时间段。将两者放在一起,我们得到:

1a5bc16369820c11e48d654d9aed1993.png

“预期5颗流星”到底是什么意思?好吧,根据父亲最保守考虑,这意味着我们在一小时内会看到3个流星,不能再多了了。当时,我没有数据科学技能,并且相信他的判断。现在我已经年纪大了,对权威人士也持怀疑态度,现在该对他的陈述进行检验了。我们可以使用泊松分布找到在一小时的观测中恰好看到3个流星的概率:

07893f95bffd429dc0fe8ebf54f0735f.png

下图显示了一个小时内流星数的概率质量函数,平均流星之间的时间为12分钟(这与一个小时内预期流星数为5相同)

272ee1ccb390b3d4a9ef49e5b6cb4bba.png

这就是“ 5个预期事件”的含义!流星最可能的数目是5,即分布的速率参数。(由于数字的怪异,4和5的概率相同,为18%)。与任何分布一样,有一个最可能的值,但也有很多种可能的值。例如,我们可以出去看0个流星,或者一小时内可以看到10个以上。为了找到这些事件的总概率,我们使用相同的方程式,但是,这次是计算离散概率的总和。

我们已经计算出看到3个流星的机会约为14%。一小时内看到3个或更少的流星的几率是27%,这意味着多于3 个的流星的几率是73%。同样,超过5个流星的概率为38.4%,而我们可以期望在61.6%的观测小时内看到5个或更少的流星。虽然很小,但有1.4%的机会在一小时内观测10个以上的流星!

为了可视化这些可能的情况,我们可以通过让姐姐记录她在10,000小时内每小时看到的流星数来进行实验。结果显示在下面的直方图中:

acf6da290b7ed2c9233a9665c03c423e.png

(这显然是一种模拟)观察可能的结果会进一步证明这是一种分布,并且预期结果并不总是会发生。在几个幸运的夜晚,尽管一个小时通常会看到4或5个流星,但我们在一小时内目睹过10个或更多的流星(小概率)。

理解实验Rate参数

速率参数λ是定义泊松分布所需的唯一数字。但是,由于它是两个部分(事件/间隔*间隔长度)的乘积,因此有两种更改方法:我们可以增加或减少事件/间隔,也可以增加或减少间隔长度。

首先,让我们通过增加或减少每小时流星的数量来更改速率参数,以查看分布如何受到影响。对于此图,我们将时间段保持恒定为60分钟(1小时)。

a04e6712f0cc92b77bfdb03cf8bf2d67.png

在每种情况下,一小时中最可能出现的流星数是预期的流星数,即泊松分布的速率参数。例如,在每小时12个流星(MPH)的情况下,我们的速率参数为12,并且有11%的机会在1小时内精确观测12个流星。如果我们的速率参数增加,我们应该期望每小时看到更多的流星。

另一种选择是增加或减少间隔长度。以下是同一图,但是这次我们将每小时的流星数量保持恒定为5,并更改了观察到的时间长度。

4a8ed289cfd83ff625c931f678e5671d.png

期望我们待更长的时间看到更多的流星也就不足为奇了!谁说“犹豫的人迷路了”,显然谁也不会站在周围观看流星雨。

等待的时间

泊松过程中一个引人入胜的部分涉及弄清楚我们要等到下一个事件才等待多长时间(有时称为到达间隔时间)。考虑一下情况:流星平均每12分钟出现一次。如果我们是随机到达的,那么我们期望等待多久才能看到下一颗流星?我父亲总是(乐观地)声称我们只需要等待6分钟,第一颗流星就符合我们的直觉。但是,如果我们学到了什么,那就是我们的直觉并不擅长在概率上。

我将不进行推导(它来自概率质量函数方程式),但是我们可以期望在事件之间等待的时间是一个衰减的指数。随着时间的增加,连续事件之间等待给定时间量的概率呈指数下降。以下等式显示了等待时间超过指定时间的概率。

1af739144e8d2eb6fec5a5863775273f.png

在我们的示例中,我们每12分钟有1个事件,如果插入数字,我们有60.65%的机会等待> 6分钟。我父亲的猜想真是太多了!为了说明另一种情况,我们可以期待大约8.2%的时间等待30分钟以上。(我们需要注意,这是在每个连续的事件对之间。事件之间的等待时间是无记忆的,因此,两个事件之间的时间对任何其他事件之间的时间都没有影响。这种无记忆性也称为Markov属性)。

图表可以帮助我们直观地观察等待时间的指数衰减:

efeb950004b7b8b822067ec704c463f3.png

等待超过0分钟的机会为100%,等待超过80分钟的机会为0%。同样,由于这是分布,因此可能的到达时间范围很广。

相反,我们可以使用以下等式找到等待时间小于或等于时间的概率:

7a94f3862a29e32939df67c0936a348a.png

我们可以等待6分钟或更短的时间才能看到39.4%的流星。我们还可以找到等待一段时间的概率:等待5到30分钟才能看到下一颗流星的概率为57.72%。

为了可视化等待时间的分布,我们可以再次运行(模拟)实验。我们模拟观看100,000分钟,平均速度为1流星/ 12分钟。然后,我们找到看到的每个流星之间的等待时间,并绘制分布图。

b8c40f277e45470438d8548aad107c06.png

最可能的等待时间是1分钟,但这不是平均等待时间。让我们回到最初的问题:如果我们随机到达,我们平均要等多久才能看到第一颗流星?

为了回答平均等待时间问题,我们将进行10,000次单独的试用,每次观看天空100,000分钟。下图显示了这些试验中流星之间平均等待时间的分布:

c27ebfd864d865896178ea3ed2ceea12.png

10,000个平均值的平均值为12.003分钟。即使我们到达的时间是随机的,我们可以期待的等待第一颗流星的平均时间就是两次出现之间的平均时间。一开始,这可能很难理解:如果事件平均每12分钟发生一次,那么为什么我们必须等待整个12分钟才能看到一个事件?答案是这是平均等待时间,考虑了所有可能的情况。

如果流星正好来到每隔12分钟,那么我们就必须在平均时间等待,看看第一个是6分钟。但是,由于这是指数分布,因此有时我们会出现并且必须等待一个小时,而等待少于12分钟的次数超过了很多次。这称为“ 等待时间悖论”,值得一读。

作为最终的可视化,让我们对1小时的观察进行随机模拟

3fae52403fe4b596eb25dd5a99677f3b.png

好吧,这次我们得到了我们所期望的:5颗流星。第一场比赛我们不得不等待15分钟,但随后又有很多流星。至少在这种情况下,值得出门进行天体观察!

关于泊松分布和二项分布的注释

二项分布用于对我们可以从概率为p的n次试验中期望的成功次数的概率进行建模。泊松分布是二项分布的特例,因为n达到无穷大,而预期的成功次数保持固定。如果n大而p小,则将Poisson用作二项式的近似值。

与统计中的许多想法一样,“大”和“小”取决于解释。经验法则是,如果n> 20并且np <10,则Poisson分布是二项式的体面近似。因此,即使n次= 50,即使对于100次试验,硬币翻转也应建模为二项式。呼叫中心在120分钟内每30分钟获得1个呼叫的呼叫中心可以建模为泊松分布,np =4。一个重要的区别是,对于一组固定的试验(域是离散的),发生了二项式,而在理论上无数次试验(连续域)。这只是一个近似值;记住,所有模型都是错误的,但是有些有用!

有关此主题的更多信息,请参阅Wikipedia上的“ 相关分发”部分中的Poisson分发。这里还有一个很好的Stack Exchange答案。

关于流星/陨石/类陨石/小行星的注意事项

流星是您在天空中看到的光斑,是由称为流星体的碎片在大气中燃烧引起的。甲流星可以来自小行星,彗星,或者是一块行星并且通常在直径毫米,但可以高达一公里。如果流星体在穿越大气层中幸存下来并撞击地球,则称其为陨石。小行星是小行星带中绕太阳公转的大块岩石。破裂的小行星碎片变成流星体。你知道的越多!

结论

总而言之,泊松分布给出了由泊松过程产生的时间间隔内许多事件的概率。泊松分布由速率参数λ定义,该参数是间隔中的预期事件数(事件/间隔*间隔长度)和事件的最高概率数。我们还可以使用泊松分布来找到事件之间的等待时间。即使我们到达随机时间,平均等待时间也始终是事件之间的平均时间。

下次您发现自己对统计失去关注时,您已获我同意不再关注老师。相反,找到相关的方程式并将其应用于一个有趣的问题。您可以学习这些材料,并对统计数据如何帮助我们了解世界感到赞赏。首先,请保持好奇:世界上有许多惊人的现象,我们可以使用数据科学来探索它们,

  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值