推荐系统的重点、难点问题

最新推荐文章于 2024-07-19 11:46:34 发布

mousever

最新推荐文章于 2024-07-19 11:46:34 发布

阅读量5.2k

点赞数

分类专栏：机器学习 DM

DM 同时被 2 个专栏收录

107 篇文章 7 订阅

订阅专栏

机器学习

30 篇文章 2 订阅

订阅专栏

随着近年来对推荐系统研究的开展，很多研究中的重点、难点问题得到研究者的关注和共识[7]，主要包括：

1）特征提取问题

虽然在信息检索中，文本等对象特征的提取技术已经很成熟，但是推荐系统的对象不一定具有文本特征或者文本不足以作为描述[1]，此时特征的选择出现了问题。尤其是网络上广泛存在的多媒体数据如音乐、视频、图像等，自动化的特征提取方法需要结合多媒体内容分析领域的相关技术。另一个问题是特征的区分性问题，大规模数据情况下不同对象的特征错配会影响系统性能。

2）模型过拟合问题（可扩展性问题）

推荐系统中推荐算法无法完全掌握用户每个方面的兴趣和需求，因为用户之前没有对足够多类别的对象进行评价。过拟合现象是指系统推荐给用户的对象与用户刚刚看过的不是太相似，就是太不相关。模型过拟合(过学习)的问题本质上来自于数据的不完备性，这在实际应用中是无法完全避免的。在信息检索领域这类问题广泛存在，解决的主要方法是引入随机性，使算法收敛到全局最优或者逼近全局最优。随机方法包括遗传算法[51]等。Daily Learner相关的文献[15,39]针对这个问题考察了被推荐的对象的相关性(relevant)和冗余性(redundancy)，认为被推荐的对象首先不能与用户看过的对象重复(冗余)，其次必须有相关性以相互联系.推荐的多样性是必不可缺的。

3）新用户问题

系统没有存储或者存储很少新用户的信息，包括查看对象的历史记录和新用户对对象的评分，基于模型的方法无法获得训练数据而基于规则的方法难以进行推理。近期一些研究特别针对这个问题提出了解决方法。文献[52,53]利用对象熵(entropy)、受欢迎程度(popularity)、用户个性属性等来改进效果。

4）新对象问题

新用户和新对象问题都属于冷启动问题。在推荐系统尤其是协同过滤系统中，新对象加入数据库后必须等待一段时间才有用户查看并进行评价（点击、打分、评论等都是评价的手段）。在评价达到一定数量之前无法对此对象进行分析和推荐。不同于新用户问题，这类问题一般考虑使用组合推荐的方法来应对。

5）稀疏问题

在任何大型的推荐系统中，对于一个用户，总有大量的对象没有经过用户的评价或者查看，而且这类数据常常比已经有此用户评价的数据量更大[7]。用户之间由于选择的差异性非常大造成稀疏情况，即任意两个用户的评分差别都非常大。文献[38]提出初步的解决方法，将用户的年龄、国籍、性别等个人信息增加作为用户相似度计算的根据，称为基于人口统计学的过滤方法(demographic filtering)。文献[26,54]使用主分量分析(SVD)降维方法尝试把稀疏的关系矩阵降维到低维，以得到用户之间潜在的关系。