本文思路整理如下:
实际需求
训练数据
《A Hybrid Approach with Collaborative Filtering for Recommender Systems 》
目的:采用加权组合的基于用户和基于项目的协同过滤构建模型,从而解决数据稀疏问题和提高了推荐系统精度。
论文信息:2013年, G Badaro, H Hajj。
一,Contribution:
1)一种混合的方法解决问题,发现在用户未评分项目的评分项排序矩阵,通过加权组合的基于用户和基于项目的协同过滤。
2)解决了两个问题:数据稀疏和提高了推荐系统精度相比单独地基于用户协同过滤或基于项目协同过滤。
二, 实验:
首先:考虑目前推荐系统算法现状:
l 当前推荐算法主要是基于内容(CB)、协同过滤(CF)、混合算法。基于内容的推荐依靠用户profile和item的描述做推荐;基于用户或者基于项目的协同过滤存在数据稀疏和冷启动问题。
基于上面考虑,本论文一种混合的方法解决问题,发现在用户未评分项目的评分项排序矩阵,通过加权组合的基于用户和基于项目的混合协同过滤模型。
以下详细展开。
其次,本文实验数据集:MovieLens。
实验环境:MATLAB。
2.1本文模型
给定特定用户的项的评级如下:
上述公式中,使用基于用户的协同过滤预测得到,
使用基于项目的协同过滤预测得到。α和β是每个相对值的权重。满足以下条件:
其中,项目评分可以用以下公式计算,
同理。
上述模型同时结合了基于用户的协同过滤和基于项目的协同过滤,因此,预测结果将结合两个方面的相似之处:用户用户的相似性和项目项目的相似性。
模型训练
需要选择合适的α和β,参数α和β选择应使得MSE最小:
本文提出了一种简化的经验方法。基于项目的协同过滤的准确性比基于用户的协同过滤更精确。因此,提出了一个更高的权重β,给基于项目的协同过滤进行预测。图2显示了所提出的α和β值的不同MAE值。
由下图,利用经验方法研究α和β的最优值,通过观察α和β的不同组合,α=1/6和β=5/6是通过经验分析得到的最优系数。
此外,为了提高系统的时间性能,设置了一个固定的邻域大小N即,用户用户相似性度量和项目项相似性度量。最接近的用户和项目预期对准确性的影响最大,所以只选择最接近的N个。
评分预测如下:
2.2 实验结果
评价指标:较低的MSE显示更好的推荐性能。
采用加权组合的基于用户和基于项目的协同过滤构建模型,相比单独的采用基于用户的协同过滤或者基于项目的协同过滤,解决了数据稀疏问题并且提高了推荐系统精度。