Youtube-利用用户的评分行为的推荐(有别于经典的协同过滤算法)
背景:
Youtube的一些背景
(1)2012时候:485000000个视频,大数据
(2)每分钟上传48小时的视频
(3)每天上传8年的内容
总而言之:大用户量,大视频量。
推荐所用的数据:用户显示显示表达为喜欢的video
问题:
(1)如果采用传统的协同过滤,U×I矩阵可能很稀疏,用户共同评分的video数目有限,推荐效果不准确,因此,协同过滤算法不适用
(2)用户的基于内容的推荐也有问题:用户评价过的视频有限,每个视频的元数据可能有限,可能有误,如果仅以此作为推荐,效果可能很差。
(3)基于朋友的推荐:缺点,朋友之间的品位可能不同,而且朋友数目也不是很多。
(3)专门提出一种针对youtube的算法:推荐的video,看的人多,优评的人也多
算法描述:
用户可用信息有限,重新定义新的用户相似性,来寻找用户组相似的用户组。因此相似用户的选取成为一个关键的因素:
相似用户的定义:把用户u喜欢的video的上传者作为相似用户,把这些用户的新欢的其他作为推荐的candidate。(注意这里只把相似用户喜欢的同类型的video作为推荐的candidate,因为我们无法做出这样的推断,u和related user都新欢经典音乐,related user还喜欢爵士乐,则都喜欢爵士乐)。
第1步:
找到每个用户显示表示喜欢的视频的上传者,这些视频的所属类型。这些用户作为related users,记录related user 和category
第2步:
找到第一步中所related user所喜欢的和目标用户相同类型的video。这些视频当成是用户感兴趣的video。(显然related user如果是active user的话效果会更好,显然视频上传者,可以视为active user)
第三步:
对第二部中的video进行排序:排序的影响因素
1、视频的观看次数viewCount,
2、积极评价的次数likeCount,
3、消极评价的次数dislikeCount。
That informationrepresents, in a way, the recommendation of the whole YouTube community.(基于社交的推荐),另外两个因素也考虑在这里面。
4、appearanceNumber和
5、userFactor.
最终的ranking公式如(1)所示
如下图的userX 的videoX作为推荐的candidate
ViewCount取对数是为了,和其他的因子尽量在同一个量级的范围左右。
DislikeCount越高惩罚的因子越高。取根号是经验值,这样的效果会更好。The overallassessment of a video we decided to punish according to the proportion of negativeevaluations of the video. We found empirically that itis desirable for better results to attenuate the impact of that portion andtherefore we decided to take the square root. If that is not done then videoswith very few views and even fewer ratings, all of which arepositive, are ranked very high.
appearanceNumber是在推荐类表中被几个relateduser表示为positive的次数,比如2,等.
userFactor用户对该视频所属类的所有视频喜欢的次数,因为重要性不如appearanceNumber,所以开根号降低权限。
如果dislikeCount为0,则设置为1
If a video is really good and has alarge number of positive ratings and a large number of views then adding a onedislike to such video will not have a major impact on its overall rating.
If a video has a small number of positive ratings and a small number of viewsthis will greatly reduce its rating, but this effect is positive because weusually don't want to recommend such a video (obviously this video isinteresting to a small group of people, andtherefore it is not likely that it will be interesting to user U).—>总结为:看的人多且优评的人。我们要的是这样的视频
声明:上述内容来自
Brbić, Maria, Eugen Rožić, and Ivana Podnar Žarko. "Recommendation of YouTube Videos." 35th International Convention on Information and Communication Technology, Electronics and Microelectronics. 2012.