Contrastive State Augmentations for Reinforcement Learning-Based Recommender Systems
摘要
从历史用户-项目交互序列中学习基于强化学习(RL)的推荐器对于生成高回报推荐和提高长期累积效益至关重要。
然而,现有的强化学习推荐方法遇到困难
(i)估计离线训练数据中未包含的状态的价值函数,以及(ii)由于缺乏对比信号而从用户隐式反馈中学习有效的状态表示。
在这项工作中,我们提出了对比状态增强(CSA)来训练基于强化学习的推荐系统。 为了解决第一个问题,我们提出了四种状态增强策略来扩大离线数据的状态空间。 该方法通过使 RL 代理访问局部状态区域并确保原始状态和增强状态之间的学习值函数相似,提高了推荐器的泛化能力。 对于第二个问题,我们建议在增强状态和从其他会话中随机采样的状态之间引入对比信号,以进一步改进状态表示学习。
1 INTRODUCTION
顺序推荐在预测用户动态兴趣方面显示出有希望的改进。 它已成功部署在各种应用场景中提供个性化服务,例如电子商务平台、社交网络和生活方式应用程序[18,31,39,46]。 深度神经网络的最新进展激励推荐社区采用各种模型来建模用户-项目交互序列,例如马尔可夫链 [29, 30]、循环神经网络 [14, 15]、卷积神经网络 [37, 50] ],以及基于注意力的方法[19, 34]。 这些方法用于表征项目转换之间的相关性并学习用户偏好的表示。 尽管这些方法表现出了良好的性能,但它们通常是使用预定义的监督信号进行训练的,例如下一项或随机屏蔽项预测。 推荐器的这种监督训练可能会导致性能次优,因为该模型纯粹是通过基于模型预测和监督信号之间差异的损失函数来学习的。 监督损失可能与服务提供商的期望不符,例如提高长期效益或推广高奖励推荐。
将现有强化学习方法应用于推荐的一个障碍是,传统强化学习算法基本上属于在线学习范式。 这种在线强化学习的学习过程涉及通过与用户交互来迭代地收集经验。 然而,这种迭代的在线方法对于现实世界的推荐系统来说成本高昂且存在风险。 一个有吸引力的替代方案是利用离线 RL 方法,该方法的目标是从记录的数据中学习策略&#x