什么是泊松分布?
当一个事件的发生满足以下条件时,可以认为这个事件在某一固定时间段内的发生次数满足柏松分布。
- 事件是独立发生的
- 事件发生的概率在给定的固定时间内不随时间变化
总结起来就是,事件的发生是随机且独立的。
泊松分布的概率质量函数:
![401b2c5780b422211b74d9e9862cfc19.png](https://i-blog.csdnimg.cn/blog_migrate/610d7fa746bb106de366bc588ea56573.jpeg)
x表示一段时间内事件发生的次数,λ表示一段时间内事件发生的平均次数。
举个例子:
假设某媒体平台一天的用户广告转化数平均为1次,每天的广告转化数就满足泊松分布。
那么根据泊松分布,我们想知道该媒体平台每周广告转化数为10次的概率,应该怎么算?
首先,固定时间由一天增加到一周,一周的平均点击则为7次,泊松分布的λ为7,要求转化数为10次的概率,泊松分布的概率质量函数的输入x为10,代入公式可以求出:
![e8ce6850c5412f36cdb3d25e00cf10af.png](https://i-blog.csdnimg.cn/blog_migrate/4fcabfdf127f020699cca299402fa0c8.jpeg)
可以得出该媒体每周广告的转化数为10次的概率为0.070983。
根据上例,将时间考虑进泊松分布的概率质量函数,可以得到:
![3a9c159bd493c2bffac318f509ce975a.png](https://i-blog.csdnimg.cn/blog_migrate/3d460151314253300a292ae5f0e1653f.jpeg)
x表示单位时间内事件发生的次数,λ表示单位时间内事件发生的平均次数,t表示t个单位时间,N(t)表示关于时间的某种函数。
泊松分布与二项分布的关系
回顾二项分布的概率质量函数:
![01ee2adc5d322ff3ebd1afc9f26a6bc7.png](https://i-blog.csdnimg.cn/blog_migrate/569a9115ad23da0b9a09ff43b9e939cf.jpeg)
我们依然拿上面举的例子来探索泊松分布与二项分布的关系。
假设某媒体平台一天的用户广告转化数平均为1次,一天广告点击的次数平均为1000次,那么广告的点击转化率为0.1%,我们现在根据二项分布来计算,该媒体平台每周广告转化数为10次的概率。
首先,时间范围是一周,那么一周的广告的平均点击数为7000次,广告的点击转化率依然是0.1%不会随时间变化而改变,那么将n为7000,x为10,p为0.1%代入二项分布的概率质量函数求出:
![dd7077790bee5995d9c1bcb53c6f41ff.png](https://i-blog.csdnimg.cn/blog_migrate/01e66632d01cea348a297c4c5994b67a.jpeg)
可以看出该媒体每周广告的转化数为10次的概率为0.070988。对比上面利用泊松分布的公式计算的值,发现二者值非常的接近,这是一种巧合还是一种必然?下面我们从二项分布的概率质量函数着手,由于二项分布中λ=np,将p=λ/n代入看看能有什么发现。
![1a26148d7dbf8fd6cf5d2b18dfa3fae5.png](https://i-blog.csdnimg.cn/blog_migrate/a7edb3c1f3035cea068bae2ed68e83b6.jpeg)
当n趋近于正无穷时,
![037686c34b540fbd87f8e6f6bb5c8447.png](https://i-blog.csdnimg.cn/blog_migrate/1520cc69acad3b809c0c3c25ca7fab9f.jpeg)
惊奇的发现当n趋于正无穷时,二项分布的概率质量函数和泊松分布的概率质量函数相同。看来在例子中的结果非常接近不是巧合。所以我们可以利用泊松分布来估算二项分布。这样做的原因主要有两个:
- 简化计算
- 一个问题可以在概念上用二项分布去理解,但是二项分布的具体n和p未知,而是已知λ
泊松分布与指数分布的关系
指数分布针对两个事件发生的时间间隔,与泊松分布不同,泊松分布是离散型分布,指数分布是连续型分布。如果单位时间内事件的发生次数满足泊松分布,那么事件发生的时间间隔满足指数分布。指数分布的概率密度函数是:
![1b9102f3de170bfcd821fefd7a5449ce.png](https://i-blog.csdnimg.cn/blog_migrate/3a50184f6f571715609463a06c4ea4da.jpeg)
概率分布函数则为:
![1e20f867bfe213340c6867a91bb1a2c8.png](https://i-blog.csdnimg.cn/blog_migrate/d4291f64ed87f1870ec6183c17ef5d89.jpeg)
λ表示单位时间内事件发生的平均次数,t表示t个单位时间。
可以从泊松分布来理解指数分布。对于泊松分布,t时间内事件发生次数为0的概率为:
![49e01ed93c8ec1d64f955a32d8a13676.png](https://i-blog.csdnimg.cn/blog_migrate/19556a161ab1ede7db0a6fe245d06434.jpeg)
t时间内事件发生次数为0的另外一种理解可以是,事件第一次发生的时间T要大于t。
即
![632034376b18ba0559806583cf0f6100.png](https://i-blog.csdnimg.cn/blog_migrate/3959301a87e03e304a512aacb1505901.jpeg)
那么事件在t时间内发生的概率为:
![b1eee116ab43bb00b949d05aecc26329.png](https://i-blog.csdnimg.cn/blog_migrate/f4bdf7124e2b7389aa84a3bbed1d1e1b.jpeg)
与指数分布的概率分布函数保持一致。
同一个例子,假设某媒体平台一天的用户广告转化数平均为1次,我们想知道该媒体平台在第2天到5天内完成一次转化的概率,就可以根据指数分布来计算。
首先,一天内的平均转化数为1,则λ为1。要在第2天与第5天之间完成一次转化,利用P(T<= 5) - P(T<= 2)来计算概率,得:
![9ac94023efefea007fffc3c6e65c1724.png](https://i-blog.csdnimg.cn/blog_migrate/e83f826a1f52baa15494a9058f34fd2c.jpeg)