威尔逊区间

由于工作原因要使用威尔逊区间来计算POI与TD之间的分数,现在总结一下。
对于召回的一些数据如何给这些数据来排名,然后根据这个排名来显示数据,这就需要使用“威尔逊区间”了。

首先我们讨论的情况是每个项目只有两种选择,且项目之间是相互独立的,就是项目符合“二项分布”的。

[1]中所举的例子中可以看出,无论得分情况为

得分 = 赞成票 - 反对票

还是

得分 = 赞成票 / 全部票

都会出现错误的情况。

有一种计算得分的策略是,通过某事件发生的概率的最低置信区间来对项目进行排序。

所谓”置信区间”,就是说,以某个概率而言,p会落在的那个区间。比如,某个产品的好评率是80%,但是这个值不一定可信。根据统计学,我们只能说,有95%的把握可以断定,好评率在75%到85%之间,即置信区间是[75%, 85%]。

而“威尔逊区间”就是为了计算这个“置信区间”的。二项分布的置信区间有多种计算公式,最常见的是”正态区间”(Normal approximation interval),但是这种算法对于小样本的情况下准确度是很低的。

威尔逊区间的计算公式如下:

p+z22n1+z2n±z1+z2np(1p)n+z24n2 p ¯ + z 2 2 n 1 + z 2 n ± z 1 + z 2 n p ¯ ( 1 − p ¯ ) n + z 2 4 n 2

其中, p p ¯ 表示的是一件事发生的概率,n表示发生的总次数,z表示置信水平,一般取0.95。

这样通过计算每个项目的“威尔逊区间”就能得到最终的排名。
比如知乎就是用这种策略来计算每条回答得分,最后按分数来排名的。

此时威尔逊区间也能化简为如下格式:

Score=(p+z22nz2n4n(1p)p+z2)1+z2n S c o r e = ( p + z 2 2 n − z 2 n 4 n ( 1 − p ) p + z 2 ) 1 + z 2 n

其中p表示赞同数/总票数,n表示总票数,z为参数。

参考链接为:
1,http://www.ruanyifeng.com/blog/2012/03/ranking_algorithm_wilson_score_interval.html
2,http://blog.sina.com.cn/s/blog_67dd85310102wtdq.html

wel_score=p+z22n1+z2nz1+z2np(1p)n+z24n2 w e l _ s c o r e = p ¯ + z 2 2 n 1 + z 2 n − z 1 + z 2 n p ¯ ( 1 − p ¯ ) n + z 2 4 n 2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一杯拿铁go

你的打赏是我更新最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值