推荐系统遇上深度学习(八十九)-推荐系统中的反馈循环

最新推荐文章于 2023-07-14 16:56:21 发布

文文学霸

最新推荐文章于 2023-07-14 16:56:21 发布

阅读量1.8k

点赞数 2

文章标签：推荐系统人工智能算法编程语言大数据

本文链接：https://blog.csdn.net/abcdefg90876/article/details/107754487

版权

本文分析了推荐系统中的反馈循环现象，它导致热门物品被过度推荐，用户偏好表征改变，推荐结果集中在少数物品上。实验表明，随着迭代，推荐物品的流行程度增加，用户打分分布变化，特别是对于用户数量较少的类别影响更大。缓解反馈循环需要平衡探索和利用，但在商业环境中实施具有挑战性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文介绍的论文题目为：《Feedback Loop and Bias Amplification in Recommender Systems》
下载地址为：https://arxiv.org/pdf/2007.13019.pdf

1、背景

推荐算法使用用户和物品的历史交互数据进行学习，并产生个性化的推荐结果，但个性化推荐结果中存在一定的偏置，偏置主要来自于两方面：

1）输入数据中的偏置，热门物品占据了大部分的数据，而大多数的长尾物品没有用户的交互信息。下图显示了movielens数据中物品的分布情况：

2）推荐算法会进一步加剧这种数据分布中的偏置，由于算法更多的学习到热门物品的信息，会将这些热门物品不断进行推荐，甚至推荐给可能对此不太感兴趣的用户

随着时间的推移，推荐算法将热门物品更多的推荐给用户，并不断收集用户对于热门物品的反馈信息并加入到训练集中，使得数据分布更为不平衡；随后再使用这批数据进行训练，再推荐物品给用户，这会导致推荐结果越来越集中在热门物品中。这种现象我们也称为反馈循环(feedback loop)。

反馈循环的存在，除了会使得推荐结果更为集中在热门物品之外，还会不断改变用户的偏好表征，使得推荐算法越来越难以捕获用户真正的偏好。

接下来，通过实验来进一步说明反馈循环所带来的推荐结果的变化情况。

这里，论文通过MovieLens 1M数据，首先对数据进行简短的说明。在这份数据中，包含4331名男性用户75w的数据和1709明女性用户的24w的数据。数据集的密度为4.468%（有评分的数据的占比）。

同时，论文通过UserKNN（user-based collaborative filtering）、BPR(bayesian personalized ranking)、基于热度的推荐三种方法进行实验。

论文首先验证了由于反馈循环的存在，推荐结果不断集中的现象，下图中左图代表了随着迭代轮次的增加，推荐列表中物品的平均受欢迎程度（对于该物品有评分的用户的占比），而右图代表了随着迭代轮次的增加，至少出现在推荐列表中一次的物品的占比。可以看到，随着迭代的不断进行，推荐物品的流行程度越来越高，推荐结果