需求:现在有好多用户访问某个网页的停留时间,要计算平均时长。
求均值是不太合理的,因为有的时间特别的长,这样的时间应该是噪音数据,这样计算的均值感觉就偏大。
我感觉应该先找到事件的分布,然后根据分布计算它的期望。
首先把数据分成几个区间,然后计算每个区间内事件发生的频次:
(参考这个:http://jingyan.baidu.com/article/f3ad7d0fffa41509c2345b6e.html)
我首先画出了数据分布的直方图:
分布特别不均匀,从累计概率可以看出第一组数据就站了87%。
下面我们只要前87%的数据:
这个跟指数分布好像:
把这两个叠加到一张图上:
假设服从指数分布,指数分布密度函数为 p(t)=λ∗e