目录
概要
Poisson分布,是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson) 在1838年时发表。
它表示在一个固定的时间段或空间中,一定数量的事件发生的概率,这些事件以一个已知的常数平均速率发生,并且独立于与上一个事件的间隔发生时间。还可以用来表示其他有特定间隔的事件数量,如距离、面积或体积。
例如,记录每天收到邮件数量的个人可能会注意到,他们平均每天收到4封信。如果收到任何邮件都并不影响未来邮件的到达时间,也就是说,如果不同来源的邮件彼此独立地到达,那么一个合理的假设是,每天收到的邮件数量服从一个泊松分布。
概率分布函数
泊松分布模型用来模拟一个事件在一段时间或空间内发生的次数。
一个离散的随机变量X被称为具有参数λ > 0的泊松分布,如果对于k = 0, 1, 2, ...,X的概率分布函数是:
- k是出现次数(k是出现次数(k=0,1,2...)
- e是欧拉数(e = 2.71828...)
- !是阶乘函数。
举例
泊松分布模型可以用来模拟事件,比如
- 一年内撞击地球的直径大于1米的陨石数量
- 晚上10点到11点到达急诊室的病人人数
- 在特定时间间隔内撞击探测器的激光光子数
泊松分布的事件概率
一个事件可以在一个间隔内发生0,1,2,... 次,区间内的平均事件数被指定为 λ。λ 是事件速率 Event rate,也称为 速率参数 Rate parameter。以下方程给出了在一个区间内观测事件的概率k:
- λ是每个间隔的平均事件数
- e 数值为 2.71828... (欧拉数)自然对数的底
- k取值 0, 1, 2, ...
- k! = k × (k − 1) × (k − 2) × ... × 2 × 1 为k的阶乘。
这个方程就是概率质量函数 (PMF)的泊松分布。
违反泊松假设的例子
- 每分钟抵达学生会的学生人数可能不会遵循一个泊松分布,因为这个比率不是恒定的(上课时间的低比率,课间时的高比率),而且每个学生的到达也不是独立的(学生往往是成群结队来的)。
- 一次大的强震会增加发生类似震级余震的可能性,那么一个国家每年发生5级地震的次数可能不会服从泊松分布。
- 至少有一个事件确定发生的情况不是 Poission 分布式的,但也许可以使用零截断泊松分布进行建模。
- 如果零事件的区间数高于泊松模型预测的区间数分布,则可以使用零膨胀模型来建模。