泊松(Poisson)分布

泊松(Poisson)分布的直观理解是,在一个单位时间或者空间间隔内,随机事件发生次数的概率。 比如:

  • 每个小时出生的婴儿数量

  • 每分钟人类心脏的跳动次数

  • 空气中每立方米中氧气分子的数量

  • 高速公路上每公里汽车的数量

泊松模型是最基本的计数模型,本章我们重点讨论泊松模型,再后续的章节中再讨论其它的计数模型。

14.1.1. 推导过程

泊松分布实际上是二项分布的试验(trials)次数 𝑁 趋近于无穷时的场景,我们用一个例子说明。 假设一个交通观察员需要对某个路口的车流量进行建模,然后用模型预测未来一个小时内从这个路口通过的车次。 为了简化问题,我们假设路口的交通量不存在高峰期低峰期,即交通量不会随着时间的变化而变化, 并且每个时间片段内通过的车辆是互不影响的,即前一小时内车辆通过与否不影响下一个小时车辆。 观察员首先根据这个路口历史上车辆通过情况,计算出平均每小时通过车辆的数量为 𝜆 。我们把一个小时内从路口通过的车次数看做一个随机变量,用符号 𝑋 表示, 那么 𝜆 就是变量 𝑋 的数学期望。 

\mathbb{E}[X] = \lambda

我们把一辆车通过与否看做是一个伯努利变量,类似投硬币实验,1表示车辆通过,0表示车辆不通过。 把一个小时的时间区间均分成 𝑁 个时间片段,比如每分钟作为一个片段,这时 𝑁=60 。 每个时间片段有车辆通过就是一次成功的实验(类似于投硬币正面向上), 没有车辆通过就是一次失败的实验(类似于投硬币反面向上), 这样就把一小时内车辆通过问题转化成一个二项分布问题, 在 𝑁 次实验中有k次成功(车辆通过)概率分布函数可以写成:

p(X=k) = \binom{N}{k} p^k \left ( 1-p \right )^{N-k}

其中 𝑝 是一次实验的成功概率,我们已经通过历史数据知道平均每小时( 𝑁 次实验)中通过的车次数为 𝜆 ,意味着n次实验中有 𝜆 次成功, 单次实验成功的概率(平均一分钟内通过车辆数)为:

但是我们并不能保证每分钟只有一辆车通过,我们需要保证一个时间片段内只有一辆车通过(一次实验) 以上的二项分布的假设才有意义。 理论上,我们只要把一小时的时间区间拆的足够小,比如拆成每秒,甚至是每毫秒为一个时间片段, 这样就能尽量保证每个时间片段内只会有一辆车通过。 𝑁 越大时间片段就越小,极限情况,我们可以把一小时分割成每个车辆通过的”瞬间”。 换句话说,只要 𝑁→∞ 上述假设就是成立的,因此我们为公式加上极限操作。

p(X=k) = \lim_{N \to \infty} \binom{N}{k} p^k \left ( 1-p \right )^{N-k}

我们发现该公式就是二项分布的极限情况,表示的是路口未来一小时内通过的车辆数的概率分布, 𝑝(𝑋=𝑘) 表示在一小时内通过车辆数为 𝑘 的概率。 𝜆 表示这个时间区间内通过车辆数的期望值, 至于这个时间区间是一小时还是两小时并不重要, 只要是一个固定的时间区间就行, 所以可以看成是单位时间区间内,或者 𝑡 时间区间内。

该公式带有极限操作,事实上可以通过一些变换去掉极限符号, 现在我们尝试对其进行一些变换。

\begin{aligned}p(X=k) &= \lim_{N \to \infty} \binom{N}{k} p^k \left ( 1-p \right )^{N-k}\\&= \lim_{N \to \infty} \frac{N!}{(N-k)!k!} \left (\frac{\lambda}{N} \right )^k \left ( 1-\frac{\lambda}{N} \right )^{N-k}\\&= \lim_{N \to \infty} \frac{N!}{(N-k)!k!} \frac{\lambda^k}{N^k} \left ( 1-\frac{\lambda}{N} \right )^N \left ( 1-\frac{\lambda}{N} \right )^{-k}\end{aligned}

结合下面的等式:

\frac{N!}{(N-k)!} = \frac{N (N-1) \cdots 2\times 1}{(N-k)(N-k-1) \cdots 2\times 1} = N (N-1) \cdots (N-k+1)

\lim_{x \to a} f(x)g(x) = \lim_{x \to a} f(x) \lim_{x \to a}g(x)

我们有

\begin{aligned}p(X=k) &= \lim_{N \to \infty} \frac{N (N-1) \cdots (N-k+1)}{N^k} \frac{\lambda^k}{k!} \left ( 1-\frac{\lambda}{N} \right )^N \left ( 1-\frac{\lambda}{N} \right )^{-k}\\&=\frac{\lambda^k}{k!} \lim_{N \to \infty} \left [ \frac{N (N-1) \cdots (N-k+1)}{N^k} \right ] \lim_{N \to \infty} \left [ \left ( 1-\frac{\lambda}{N} \right )^N \right ] \lim_{N \to \infty}\left [ \left ( 1-\frac{\lambda}{N} \right )^{-k}\right ]\end{aligned}

p(X=k|N) = \frac{\lambda^k}{k!} \times 1 \times e^{-\lambda} \times 1 =\frac{\lambda^k}{k!} e^{-\lambda}

上式就表示在单位(固定)时间区间内,随机事件发生k次的概率,这就是泊松分布。 上式稍微整理下,就得到泊松分布的概率质量函数:

p(x) = \frac{\lambda^x}{x!} e^{-\lambda}

其中变量 𝑥 表示在单位时间内事件发生的次数,显然 𝑥 是一个离散变量, 因此泊松分布是一个离散变量分布。 𝜆 是变量 𝑥 的期望值,表示在单位时间内事件发生的平均次数, 因此通常也可以用 𝜇 代替 𝜆 。

p(x) = \frac{\mu^x}{x!} e^{-\mu}

二项式分布 𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙(𝑘,𝑛) 表示进行 𝑛 实验成功 𝑘 次的概率, 需要知道 𝑛 的值才行,并且没有时间区间的概念。 而泊松分布 𝑃𝑜𝑖𝑠𝑠𝑜𝑛(𝜆) 表示单位时间内事件发生 𝑥 次的概率, 其用单位时间的概念替代了 𝑛 的作用,并且这个单位时间具体多长并不重要,只是把整体时间分成相同长度的小片段。

注意,在泊松分布中,各个时间区间之间是相互独立的 ,互不影响, 也就是不会因为当前时间区间内有车辆通过,而导致下一个时间区间内通过的车辆受到影响。 泊松分布的应用并不是仅限于固定的时间区间,理论上只要是固定的区间(fixed interval)即可, 比如固定大小的时间、长度、空间、面积、体积等等。

  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值