指数分布是描述泊松分布中事件发生时间间隔的概率分布。除了用于泊松过程的分析,还有许多其他应用,如以下场景:
- 世界杯比赛中进球之间的时间间隔
- 超市客户中心接到顾客来电之间的时间间隔
- 流星雨发生的时间间隔
- 机器发生故障之间的时间间隔
癌症病人从确诊到死亡的时间间隔
指数分布有如下的适用条件:
1. x是两个事件发生之间的时间间隔,并且x>0;
2. 事件之间是相互独立的;
3. 事件发生的频率是稳定的;
4. 两个事件不能发生在同一瞬间。
这几个条件实质上也是使用泊松分布的前提条件。如果满足上述条件,则x是一个指数随机变量,x的分布是一个指数分布。如果不满足上述条件,那么需要使用Weibull分布或者gamma分布。
指数分布只有一个参数,“λ”,λ是事件发生的频率,在不同的应用场景中可能有不同名称:
- 事件频率
- 到达频率
- 死亡率
- 故障率
- 转变率
- …………
λ是单元时间内事件发生的次数,这里需要注意的是,单元时间可以是秒,分,小时等不同的单位,同时λ根据单元时间度量的不同,其数值也不一样。如单元时间为1小时,lambda为6,则单元时间1分钟,λ为6/60=0.1。
指数分布的概率密度函数(probability density func,PDF)由λ和x(时间)构成:
指数分布是可以从泊松分布推导出来的,这个以后再说。
显然这里x>0,因为时间为负没有现实意义,定义如果x<=0,则f(x)=0,e则是自然对数的底数。
我们来看一个实际例子:
一个设备出现多次故障的时间间隔记录如下:
23, 261, 87, 7, 120, 14, 62, 47, 225, 71, 246, 21, 42, 20, 5, 12, 120, 11, 3, 14, 71, 11, 14, 11, 16, 90, 1, 16, 52, 95
根据上面数据,我们可以计算得到该设备发生故障的平均时间是59.6小时,即单位小时时间内发生故障事件的次数为λ=1/59.6=0.0168。
那么该设备在3天(72小时)内出现故障的概率是多大呢?即求P(x<72),这就需要计算指数分布的累积分布函数:
也即该设备3天内出现故障的概率大于70%。
再举个国足的例子,假设国足参加了2018年世界杯,国足面对世界强队比赛,平均5场比赛进一个球,即单位分钟时间内发生进球事件的次数为λ=1/(5*90)=0.002222。那么小组赛3场比赛,至少能进一个球的概率是多少?
3场小组赛,3*90分钟=270分钟。
也就是说3场小组赛一个球不进的概率是1-0.4512=54.88%