一、基本信息
论文题目:《A Novel Bayesian Similarity Measure for Recommender Systems》
发表时间:ICJAI 2013
论文作者及单位:
论文地址:https://dl.acm.org/citation.cfm?id=2540506
二、摘要
协同过滤(collaborative filtering)是一种广泛使用的以用户为中心的推荐技术,它通过汇总来自类似用户的评级来预测项目的评级。用户相似度通常通过余弦相似度或皮尔逊相关系数来计算。然而,它们都只考虑评级向量的方向,并且都有一系列的缺点。为了解决这些问题,我们提出了一种新的基于Dirichlet分布的贝叶斯相似性度量,同时考虑了评级向量的方向和长度。此外,我们的principled method由于偶然性降低了相关性。对六个实际数据集的实验结果表明,该方法具有较高的精度。
三、论文主要内容与工作
1、原有的用来测量相似度的VSS和PCC方法存在四点不足:
- 平值问题:如果所有评级值都是flat,例如一个用户给分为(1,1,1),另一个给分为(5,5,5)则当相关公式分母变为0时,pcc不可计算,cos始终为1,而不管评分值如何;
- 相反的值问题:如果两个用户在共同评分的项目上指定完全相反的评级,则pcc始终为−1;
- 单值问题:如果两个用户只有一个共同的评分项目,则PCC不可计算,无论评分值如何,cos都会得出1;
- 交叉值问题:如果两个用户只有两个共同的评分项目,则向量交叉时,PCC始终为−1,例如(1,3)和(2,1);否则,如果可计算,PCC为1。
2、为了解决上述问题并提出一种更好的相似性度量方法,我们设计了一种新的贝叶斯方法,同时考虑了评级向量的方向和长度。贝叶斯方法的一个吸引人的优点是,人们可以用与大样本相同的方式从小样本中推断(O'Hagan,2004年)。当评分向量的长度较短时,这一点尤其有用。我们应用Dirichlet分布来适应同一项目(评级对)两个评级之间的多级距离。相似度定义为用户距离的反标准化,该标准化是由评级距离的加权平均值和与该距离内的评级对数量相对应的重要权重计算得出的。我们进一步排除了由于少量共评项目(称为机会相关性)而导致用户“相似”的情况发生的可能性。基于六个实际数据集的实验结果表明,该方法具有较高的精度。
3、对已有的评估相似度方法做出了回顾,并指出了它们各自的不足。
4、本文所提出的贝叶斯相似性度量与PCC和COS有着明显的区别,旨在解决这些传统相似性度量的问题。它同时考虑了评级向量的方向(评级距离)和长度(评级数量)。具体来说,评级距离是根据观察到的证据数量,由Dirichlet分布建模的,每个证据是一对评级(从两个向量)对一个通常评级的项目。然后根据用户的重要性权重,将用户的总体相似性建模为评级距离的加权平均值,对应于距离中新证据的数量。此外,我们考虑的场景是,由于评级向量的长度很小,用户恰好“相似”,称为机会相关性。因此,通过(1)Dirichlet分布的建模,以及(2)我们的方法中的机会相关性,考虑了评级向量的长度。
5、随后对本文提出的方法的数学基础进行了详细介绍,并进行了实验验证。
四、总结
本文提出了一种新的基于Dirichlet分布的推荐系统贝叶斯相似性度量方法,该方法考虑了评价向量的方向和长度。此外,为了准确地测量用户的相关性,剔除了因偶然性和用户偏差引起的相关性。通过典型的例子,我们证明了贝叶斯测度可以解决传统相似测度(即PCC和COS)的问题。更一般地说,我们通过实证分析了这些措施的发展趋势,并得出结论,我们的方法有望产生更现实和可辨别的用户相似性。基于六个实际数据集的实验结果进一步证明了该方法在提高推荐性能方面的鲁棒性。
我们的方法只依赖数字等级来模拟用户相关性,因此它可以应用于许多其他领域,如信息检索。我们计划整合更多关于用户评级的信息,例如评级发布的时间,以考虑用户兴趣的动态变化【Li等人,2011年】,并在我们的方法中应用数值δ和c的参数学习。