基于用户投票的排名算法(六):贝叶斯平均

转载 2012年03月30日 21:38:54

作者: 阮一峰

日期: 2012年3月28日

(这个系列实在拖得太久,今天是最后一篇。)

上一篇介绍了"威尔逊区间",它解决了投票人数过少、导致结果不可信的问题。

举例来说,如果只有2个人投票,"威尔逊区间"的下限值会将赞成票的比例大幅拉低。这样做固然保证了排名的可信性,但也带来了另一个问题:排行榜前列总是那些票数最多的项目,新项目或者冷门的项目,很难有出头机会,排名可能会长期靠后。

IMDB为例,它是世界最大的电影数据库,观众可以对每部电影投票,最低为1分,最高为10分。

系统根据投票结果,计算出每部电影的平均得分。然后,再根据平均得分,排出最受欢迎的前250名的电影。

这里就有一个问题:热门电影与冷门电影的平均得分,是否真的可比?举例来说,一部好莱坞大片有10000个观众投票,一部小成本的文艺片只有100个观众投票。这两者的投票结果,怎么比较?如果使用"威尔逊区间",后者的得分将被大幅拉低,这样处理是否公平,能不能反映它们真正的质量?

一个合理的思路是,如果要比较两部电影的好坏,至少应该请同样多的观众观看和评分。既然文艺片的观众人数偏少,那么应该设法为它增加一些观众。

排名页面的底部,IMDB给出了它的计算方法。

  

  - WR, 加权得分(weighted rating)。
  - R,该电影的用户投票的平均得分(Rating)。
  - v,该电影的投票人数(votes)。
  - m,排名前250名的电影的最低投票数(现在为3000)。
  - C, 所有电影的平均得分(现在为6.9)。

仔细研究这个公式,你会发现,IMDB为每部电影增加了3000张选票,并且这些选票的评分都为6.9。这样做的原因是,假设所有电影都至少有3000张选票,那么就都具备了进入前250名的评选条件;然后假设这3000张选票的评分是所有电影的平均得分(即假设这部电影具有平均水准);最后,用现有的观众投票进行修正,长期来看,v/(v+m)这部分的权重将越来越大,得分将慢慢接近真实情况。

这样做拉近了不同电影之间投票人数的差异,使得投票人数较少的电影也有可能排名前列。

把这个公式写成更一般的形式:

  

  - C,投票人数扩展的规模,是一个自行设定的常数,与整个网站的总体用户人数有关,可以等于每个项目的平均投票数。
  - n,该项目的现有投票人数。
  - x,该项目的每张选票的值。
  - m,总体平均分,即整个网站所有选票的算术平均值。

这种算法被称为"贝叶斯平均"(Bayesian average)。因为某种程度上,它借鉴了"贝叶斯推断"(Bayesian inference)的思想:既然不知道投票结果,那就先估计一个值,然后不断用新的信息修正,使得它越来越接近正确的值。

在这个公式中,m(总体平均分)是"先验概率",每一次新的投票都是一个调整因子,使总体平均分不断向该项目的真实投票结果靠近。投票人数越多,该项目的"贝叶斯平均"就越接近算术平均,对排名的影响就越小。

因此,这种方法可以给一些投票人数较少的项目,以相对公平的排名。

=================================================

"贝叶斯平均"也有缺点,主要问题是它假设用户的投票是正态分布。比如,电影A有10个观众评分,5个为五星,5个为一星;电影B也有10个观众评分,都给了三星。这两部电影的平均得分(无论是算术平均,还是贝叶斯平均)都是三星,但是电影A可能比电影B更值得看。

解决这个问题的思路是,假定每个用户的投票都是独立事件,每次投票只有n个选项可以选择,那么这就服从"多项分布"(Multinomial distribution),就可以结合贝叶斯定理,计算该分布的期望值。由于这涉及复杂的统计学知识,这里就不深入了,感兴趣的朋友可以继续阅读William Morgan的How to rank products based on user input

(完)

基于用户投票的排名算法(六):贝叶斯平均

作者: 阮一峰 日期: 2012年3月28日 (这个系列实在拖得太久,今天是最后一篇。) 上一篇介绍了"威尔逊区间",它解决了投票人数过少、导致结果不可信的问题。 举例来说,如果只有2个人...
  • Viidiot
  • Viidiot
  • 2013年09月20日 08:47
  • 1082

用户投票的排名算法

第一种 新鲜的delicious 新的难以上升, 第二种 上升的hacker P-1/(T+2)^G P投票数,T时间单位为小时,G重力系数一般为1.8(通常取值还有1.5,2....
  • Em_dark
  • Em_dark
  • 2017年03月29日 12:36
  • 250

基于用户投票的排名算法

目录   基于用户投票的排名算法(一):Delicious和Hacker News   基于用户投票的排名算法(二):Reddit   基于用户投票的排名算法(三):Stack Overflow...
  • regnjka
  • regnjka
  • 2014年04月02日 20:28
  • 261

用户投票排名算法总结

其实这只能算是一个总结,一个读后感外带一点引申。《基于用户投票的排名算法》系列,作者:阮一峰。这个系列的文章确实写得很漂亮,层层深入,引人思考。作者blog: http://www.ruanyi...
  • Snail_Moved_Slowly
  • Snail_Moved_Slowly
  • 2018年02月04日 22:27
  • 8

简评《基于用户投票的排名算法》

最近微博timeline上老是出现一些关于《基于用户投票的排名算法》的讨论,一直没认真读。今天又有人在讨论,花了点时间仔细读了一下,写的真是不错,让我立马有了更新一下自己的空间的冲动。文章的作者是阮一...
  • overstack
  • overstack
  • 2012年11月22日 16:40
  • 536

基于用户投票的排名算法Reddit

基于用户投票的排名算法(二):Reddit (不好意思,这个系列中断了近两周,我会尽快在这几天,把后面几篇写完。) 上一次,我介绍了Hacker News的排名算法。它的特点是用户只能投赞成票,但...
  • Real_Myth
  • Real_Myth
  • 2015年10月08日 16:56
  • 653

基于用户投票的排名算法(二):Reddit

作者: 阮一峰 日期: 2012年3月 7日 (不好意思,这个系列中断了近两周,我会尽快在这几天,把后面几篇写完。) 上一次,我介绍了Hacker News的排名算法。它的特...
  • Viidiot
  • Viidiot
  • 2013年09月19日 17:33
  • 775

基于用户投票的排名算法:威尔逊区间

迄今为止,这个系列都在讨论,如何给出"某个时段"的排名,比如"过去24小时最热门的文章"。 但是,很多场合需要的是"所有时段"的排名,比如"最受用户好评的产品"。 这时,时间因素就不需要考...
  • a358463121
  • a358463121
  • 2016年04月30日 22:35
  • 1464

编程之美之实时排名算法

参考文献 某海量用户网站,用户拥有积分,积分可能会在使用过程中随时更新。现在要为该网站设计一种算法,在每次用户登录时显示其当前积分排名。用户最大规模为2亿;积分为非负整数,且小于100万。 存储结构...
  • fangjian1204
  • fangjian1204
  • 2014年08月21日 17:42
  • 4901

统计专用-求平均算法

加权平均,无非是N个数循环. 1. 比较安全的两整数平均值算法实现 https://www.iteblog.com/archives/721.html?from=like ...
  • fei33423
  • fei33423
  • 2017年03月27日 21:42
  • 177
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:基于用户投票的排名算法(六):贝叶斯平均
举报原因:
原因补充:

(最多只允许输入30个字)