豆瓣250排行榜算法

IMDB网站依据下列公式计算每部影片的得分,以排定名次: 
   
  加权平均分(WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C 
   
  在这里: 
  R = 该电影的平均分 
  v = 该电影的总投票数 
  m = 列入前250所需要的最少票数(目前是1300票) 
  C = 数据库中所有电影的总平均分(目前是6.7) 
   
  这个估算比目前豆瓣所采用的简单平均分方法要科学的多,因为它既考虑了电影的受众人数,也考虑了优劣。比如一部电影只有10个人看过,这10个人都给它打10分,而另一部电影有10000人看过,平均分是9分,大家觉得哪个好?我想大部分人会相信是后者。所以这就是贝叶斯算法的依据。

 

从目前的分析来看,豆瓣250应该也采用了这种算法,其中的四项参数,R和V可以根据用户对电影的评分直接获得,而m和C两项参数则略为复杂。 

先来说说C值,该值总体来说比较平稳,经过一段时间的观察和试算,应该是在3.8左右平稳上升。 
应该这个平均分是比较高的,由于豆瓣采取的是5分制,折算成IMDB分有7.6了,这比上文提到的IMDB平均分高了近1分。如果这确实是数据库中所有电影的总平均分,那么可以推测豆瓣用户总体来说是比较“宽容”的,或者说更愿意对自己推荐的电影进行评分而对较差的电影则不予评价。 

另一个参数m,是至关重要的一个阀值,即使一部电影的评分再高,如果总投票数不能达到这个阀值,也是不能上榜的。 
由于豆瓣250排行榜每周更新一次,根据每周的排名情况,我们可以发现从250创设到现在,m值在短短1个半月内,由最初的1300左右增加至目前的1500左右,应该说,这样一个增幅是比较高的。上周,一直在榜单中的《L.A. Confidential》就因为没到跟上M的涨速而掉队,但于本周返回榜单。 
m值的设定可以说一定程度上决定了整个榜单的取向,如果设定的较低,会使得榜单更容易被人为操纵,毕竟现在注册马甲不是很困难的事情;但设的高了,一些受众较少的优秀电影也会因为评分人数达不到及格线而被挡在榜单之外;极端的说,如果设定过高,留在榜单上的只能是一些“畅销”电影了。而豆瓣250有关这个参数的确定方式,是所有参数中最难以判定的。

转载于:https://www.cnblogs.com/jamesbd/p/3954658.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值