应用场景
在点击率预估场景下,计算item的ctr并不能真实反映用户对这个item的喜爱程度,比如itemA的曝光次数为5,点击次数为2;itemB的曝光次数为100,点击次数为40,那么直观感觉itemB要比itemA更受欢迎,因为itemB的曝光次数多,但两个item的ctr是相同的(0.4),那么在这一维属性看来,这两个item在用户侧的喜好程度是相同的。这时需要引入威尔逊区间来解决上述问题。
数学原理
置信区间
在上述应用场景中,用户的点击在理想情况下服从二项分布,二项分布的p值(上述ctr)的可信度对应的概率取值区间即为置信空间,举个实际例子,假如某一个item的ctr为0.8,通过一定公式计算出该item对应的ctr有95%的把握(可信度)落入[0.75%, 0.85%]之间,这里[0.75%, 0.85%]即为置信空间。
威尔逊区间
置信区间的计算多种多样,这里列举其中一种,即为威尔逊区间,公式如下:
p
+
z
2
2
n
1
+
z
2
n
±
z
1
+
z
2
n
p
(
1
−
p
)
n
+
z
2
4
n
2
\frac{p+\frac{z^2}{2n}}{1+\frac{z^2}{n}}\pm \frac{z}{1+\frac{z^2}{n}}\sqrt{\frac{p(1-p)}{n} + \frac{z^2}{4n^2}}
1+nz2p+2nz2±1+nz2znp(1−p)+4n2z2
其中p为ctr;z为正太分布置信度对应的取值,可以通过查表得到;n为样本容量。可以看出,在相同z和p的情况下,n越大,威尔逊区间的范围就越窄,而当n无限大时,威尔逊区间取值变为p。