数学(四)威尔逊区间

应用场景

在点击率预估场景下,计算item的ctr并不能真实反映用户对这个item的喜爱程度,比如itemA的曝光次数为5,点击次数为2;itemB的曝光次数为100,点击次数为40,那么直观感觉itemB要比itemA更受欢迎,因为itemB的曝光次数多,但两个item的ctr是相同的(0.4),那么在这一维属性看来,这两个item在用户侧的喜好程度是相同的。这时需要引入威尔逊区间来解决上述问题。

数学原理

置信区间

在上述应用场景中,用户的点击在理想情况下服从二项分布,二项分布的p值(上述ctr)的可信度对应的概率取值区间即为置信空间,举个实际例子,假如某一个item的ctr为0.8,通过一定公式计算出该item对应的ctr有95%的把握(可信度)落入[0.75%, 0.85%]之间,这里[0.75%, 0.85%]即为置信空间。

威尔逊区间

置信区间的计算多种多样,这里列举其中一种,即为威尔逊区间,公式如下:
p + z 2 2 n 1 + z 2 n ± z 1 + z 2 n p ( 1 − p ) n + z 2 4 n 2 \frac{p+\frac{z^2}{2n}}{1+\frac{z^2}{n}}\pm \frac{z}{1+\frac{z^2}{n}}\sqrt{\frac{p(1-p)}{n} + \frac{z^2}{4n^2}} 1+nz2p+2nz2±1+nz2znp(1p)+4n2z2

其中p为ctr;z为正太分布置信度对应的取值,可以通过查表得到;n为样本容量。可以看出,在相同z和p的情况下,n越大,威尔逊区间的范围就越窄,而当n无限大时,威尔逊区间取值变为p。

参考链接

  1. 威尔逊区间
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值