计算网页停留时间的平均时长

计算网页停留时间的平均时长时,由于数据偏斜,直接求均值不合理。通过绘制直方图发现数据分布不均匀,可能符合指数分布。采用中位数作为更合适的代表‘平均值’,因为它能更好地反映大多数用户的停留时间。通过对数据进行分位数分析,发现中位数和去掉异常值后的平均值接近,支持使用中位数作为平均停留时长的指标。
摘要由CSDN通过智能技术生成

需求:现在有好多用户访问某个网页的停留时间,要计算平均时长。

求均值是不太合理的,因为有的时间特别的长,这样的时间应该是噪音数据,这样计算的均值感觉就偏大。

我感觉应该先找到事件的分布,然后根据分布计算它的期望。

首先把数据分成几个区间,然后计算每个区间内事件发生的频次:
(参考这个:http://jingyan.baidu.com/article/f3ad7d0fffa41509c2345b6e.html
这里写图片描述

我首先画出了数据分布的直方图:
这里写图片描述
分布特别不均匀,从累计概率可以看出第一组数据就站了87%。

下面我们只要前87%的数据:
这里写图片描述

这个跟指数分布好像:
这里写图片描述

把这两个叠加到一张图上:
这里写图片描述

假设服从指数分布,指数分布密度函数为 p(t)=λe

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值