1. 摘要
Empirical Analysis of Predictive Algorithms for Collaborative Filtering是一篇非常经典的综述性论文。这篇论文非常“古老”,里面介绍的算法并不多,因此非常适合新手入门。这篇论文通过采用四种实验策略,两种实验标准来对比协同过滤(Collaborative Filtering,CF)中常用的两类常用算法:Memory-basd,Model-based,并对实验结果进行分析,总结。文章介绍的算法分类如下图所示:
2. Memory-based method
2.1 基础
协同过滤的核心目标在于预测目标用户(active user)对某一个物品的评分。Memory-based method的思路一般是通过参考与目标用户兴趣相似的用户(臭味相投者)对该物品的评分来预测目标用户的评分。说白了就是,跟你兴趣相投的人,对一个物品的评价应该也差不多。文章提出了两个计算评分的基础公式:
v i , j v_i,_j vi,j表示用户 i i i对物品 j j j的投票值(这里的投票是一个很宽泛的概念,评分就是其中一种形式), I i I_i Ii表示用户感兴趣的物品集合, v i ‾ \overline{vi} vi就是一个用户 i i i的投票均值。
可以看出, p