贝叶斯平均
贝叶斯平均思想和公式
前期讲过Wilson得分进行排序,解决了观看量很少,导致结果不可信的问题。Wilson评分虽然保证了排名的可靠性,但该排序方法也会大大削弱那种观看量少(小众的)的视频的得分,忽略了冷门视频和新事物的产生,这样排名榜上始终会是那些观看量高的视频,新视频和冷门的视频很难出来,长期靠后。
这里就有一个问题:热门视频与冷门视频的平均得分,是否真的具有可比性?举个例子来说,一个热门视频每天2000次曝光,另外一个冷门视频只有50次曝光。很明显,使用Wilson评分,后者的得分将被大幅拉低,所以考虑到贝叶斯平均进行排序,给每个视频增加一定量的曝光。
其思想在于:
- 假设所有视频都至少有m次曝光(设置一个基准),那么就都具备了同等的一个评选条件;
- 然后假设这m次曝光的评分是所有视频的平均得分(即假设这个视频具有平均水准);
- 最后,用现有的评分进行修正,长期来看,v/(v+m)这部分的权重将越来越大,得分将慢慢接近真实情况。
贝叶斯平均式子如下:
v : 代表该视频的实际观看量;
m : 代表最低的一个观看量(人工干预设置,可根据实际观看情况