长尾商品推荐系统
2.3 长尾问题的解决方法:对项目集进行聚类
导致长尾推荐问题的原因是,没有足够的数据进行长尾商品的模型预测,聚类可以适当解决该问题。
举例来说,在movieLens数据集上,使用EM方法把1682部电影聚为10类,用以构建预测模型(比如每一类都有一个支持向量机模型,总共就有10个SVM模型)。如果想预测用户C对The Other Boleyn Girl这部电影的评分,首先,将所有电影分成10组。如果电影属于第5组,改组还有30部其他电影,共10000个评分,在该组数据中使用SVM模型,通过10折交叉验证在10000个评分数据上计算RMSE错误率。但是该方法效率不高,在大规模的推荐问题上表现不好,为了解决上述问题,直接把流行商品和长尾商品分开建模,在某些情况下,准确率更高。
3. 提出的方法
首先把商品I分为流行商品H和长尾商品T,聚类长尾商品T并进行聚类。对长尾商品进行聚类,比如电影,有聚类指标(电影评分、流行度、喜欢数等),根据相应指标使用传统的聚类方法进行聚类,本文使用EM聚类方法,而流行商品H则无需聚类。