Contrastive State Augmentations for Reinforcement Learning-Based Recommender Systems

Contrastive State Augmentations for Reinforcement Learning-Based Recommender Systems

在这里插入图片描述

摘要

从历史用户-项目交互序列中学习基于强化学习(RL)的推荐器对于生成高回报推荐和提高长期累积效益至关重要。
然而,现有的强化学习推荐方法遇到困难
(i)估计离线训练数据中未包含的状态的价值函数,以及(ii)由于缺乏对比信号而从用户隐式反馈中学习有效的状态表示。
在这项工作中,我们提出了对比状态增强(CSA)来训练基于强化学习的推荐系统。 为了解决第一个问题,我们提出了四种状态增强策略来扩大离线数据的状态空间。 该方法通过使 RL 代理访问局部状态区域并确保原始状态和增强状态之间的学习值函数相似,提高了推荐器的泛化能力。 对于第二个问题,我们建议在增强状态和从其他会话中随机采样的状态之间引入对比信号,以进一步改进状态表示学习。

1 INTRODUCTION

顺序推荐在预测用户动态兴趣方面显示出有希望的改进。 它已成功部署在各种应用场景中提供个性化服务,例如电子商务平台、社交网络和生活方式应用程序[18,31,39,46]。 深度神经网络的最新进展激励推荐社区采用各种模型来建模用户-项目交互序列,例如马尔可夫链 [29, 30]、循环神经网络 [14, 15]、卷积神经网络 [37, 50] ],以及基于注意力的方法[19, 34]。 这些方法用于表征项目转换之间的相关性并学习用户偏好的表示。 尽管这些方法表现出了良好的性能,但它们通常是使用预定义的监督信号进行训练的,例如下一项或随机屏蔽项预测。 推荐器的这种监督训练可能会导致性能次优,因为该模型纯粹是通过基于模型预测和监督信号之间差异的损失函数来学习的。 监督损失可能与服务提供商的期望不符,例如提高长期效益或推广高奖励推荐。

将现有强化学习方法应用于推荐的一个障碍是,传统强化学习算法基本上属于在线学习范式。 这种在线强化学习的学习过程涉及通过与用户交互来迭代地收集经验。 然而,这种迭代的在线方法对于现实世界的推荐系统来说成本高昂且存在风险。 一个有吸引力的替代方案是利用离线 RL 方法,该方法的目标是从记录的数据中学习策略,而不需要影响用户体验的在线探索 [7, 22]。 尽管存在一些关注离线强化学习的研究[8,47,52],但由于以下限制,如何为顺序推荐任务设计合适的离线强化学习解决方案仍然是一个开放的研究挑战:潜在巨大的用户状态空间限制了泛化能力 离线强化学习算法。 由于离线强化学习算法的目标是在不进行在线探索的情况下学习策略,因此这些算法只能研究记录的训练数据中发生的状态-动作对。 在模型推理过程中,可能会出现新的和超出分布的用户状态。 此外,状态转移概率也可能与离线数据不同。 因此,强化学习推荐代理可能会遇到严重的分布偏移问题,导致与离线训练集分布不同的数据的价值函数估计不准确。 • 缺乏对比信号使得强化学习代理无法学习有效的状态表示。 现代推荐系统通常基于隐式反馈数据进行训练,其中仅包含正反馈(例如点击和购买)。 缺乏负反馈可能会导致 RL 代理无法知道哪个状态不好或对于给定状态应该避免哪些操作。 鉴于稀疏的用户-项目隐式交互,仍然需要研究如何提高数据效率来学习有效的状态表示,以进一步提高基于强化学习的推荐系统的性能。

基于强化学习的推荐系统的对比状态增强(CSA)。 更准确地说,给定输入项序列,我们使用顺序推荐模型将序列映射到隐藏状态,在隐藏状态上堆叠两个最终输出层。 种是使用传统的监督交叉熵损失进行训练,第种是通过双 Q 学习进行训练[11]。 为了解决第一个限制,我们为 RL 输出层提出了四种状态增强策略,以扩大离线训练数据的状态空间。 这种方法通过使 RL 代理显式访问局部状态区域并确保学习到的值函数在原始序列状态和增强状态之间相似来平滑状态空间,因为给定观察中的小扰动不应导致截然不同的值函数 。 对于第二个限制,我们在 RL 输出层上使用对比学习,将同一序列状态的不同增强的表示“拉”向彼此,同时将来自不同序列的状态表示“推”开。 最后,我们共同训练监督损失、原始状态和增强状态的 RL 损失,以及记录的隐式反馈数据的对比损失。

2 RELATEDWORK

2.1 Sequential Recommendation
早期的顺序推荐方法主要依赖于马尔可夫链(MC)。 基于 MC 的方法估计项目-项目转移概率矩阵,并利用它来预测给定用户上次交互的下一个项目。 伦德尔等人。 [30]结合矩阵分解和一阶MC来捕获一般和短期用户兴趣。 [12, 13] 中还开发了考虑较长相互作用序列的高阶 MC 方法。 最近提出了许多基于深度学习的方法来更有效地对用户-项目交互序列进行建模。 希达西等人。 [14]首先将门控循环单元(GRU)引入基于会话的推荐任务,随后大量的变体通过结合成对损失函数[15]、复制机制[28]、记忆网络[16]修改了该模型。 17]和层次结构[27]等。然而,基于RNN的方法假设会话中的相邻项目具有顺序依赖性,这可能无法捕获跳跃信号。 Tang 和 Wang [37] 以及 Yuan 等人。 [51]提出利用卷积神经网络(CNN)根据先前项目嵌入的局部特征来建模顺序模式。 Kang 和 McAuley [19] 提出在顺序推荐领域利用著名的 Transformer [38]。 关于学习任务,大多数现有的顺序推荐方法都利用下一项预测任务。 此外,自监督学习通过从外部标签以外的原始数据构建训练信号,证明了其在表示学习中的有效性。 孙等人。 [34]提出使用预测随机屏蔽项目的任务来训练顺序推荐器。 周等人。 [55]提出了四个辅助自监督任务来最大化属性、项目和序列之间的互信息。 夏等人。 [44]提出了一种自我监督任务,以最大化从超图学习到的序列表示之间的互信息。 尽管上述方法取得了进步,但它们经过训练以最小化模型预测和预定义(自)监督信号之间的差异。 此类学习信号可能与推荐期望不匹配,例如,提高一次交互会话中的累积增益。

2.2 Reinforcement Learning

强化学习已经显示出有希望的改进,可以增加长期的累积收益。 传统的强化学习方法可以分为在策略方法(例如策略梯度[36])和离策略方法(例如Q-learning [24, 41]、actor-critic [10, 20])。 在政策方法的目标是通过与环境的实时交互来学习政策。 离策略方法利用重放缓冲区来存储过去的经验,从而提高 RL 算法的数据效率。 在策略和离策略方法都需要进行在线探索来收集训练数据1。 相反,离线强化学习[23]旨在从固定数据训练代理,而不需要新的探索。 最近的研究已经开始研究离线强化学习问题 [7, 8, 21],例如,解决价值函数的高估问题 [7, 21] 或从专家演示中学习 [8]。 强化学习最近被引入推荐系统,因为它考虑了用户的长期参与度 [54, 58]。 赵等人。 [53]建议使用强化学习生成列表式和页面式推荐。 为了解决离策略设置下的分配转移问题,Chen 等人。 [2]提出利用倾向得分来执行离政策校正。 然而,此类方法在估计倾向得分方面存在很大差异。 基于模型的强化学习方法 [4, 57] 首先构建一个模型来模拟环境。 然后通过与构建的模拟器的交互来训练该策略。 辛等人。 [49]提出注入自我监督信号来改进强化学习代理的训练。 此外,上下文信息也被认为可以增强推荐的强化学习过程。 例如,西安等人。 [45]提出了一种策略梯度方法,从知识图中提取路径,并将这些路径视为推荐过程的解释。 王等人。 [40]融合历史和未来知识来指导基于强化学习的顺序推荐。

2.3 Contrastive Learning

近年来,对比学习在语音处理[25]、计算机视觉[3]以及自然语言处理[9, 43]等各个领域取得了显着的成功。 通过最大化数据本身正向变换之间的互信息,同时提高对负向变换的辨别能力,发现不同视图共享的语义信息并获得高质量的表示。 因此,各种推荐方法[42,48,55]采用对比学习来优化表示学习。 具体来说,周等人。 [55]提出采用预训练和微调策略,并在预训练期间利用对比学习来合并项目元信息之间的相关性。 吴等人。 [42]提出了一种具有对比学习的多任务框架来改进基于图的协同过滤方法。 谢等人。 [48]建议利用对比目标来增强用户表示。 他们使用项目裁剪、项目蒙版和项目重新排序作为数据增强方法来构建对比信号。 邱等人。 [26]基于dropout进行了对比自监督学习。 与现有的侧重于在(自)监督范式下利用对比学习的工作不同,我们的研究探索对比信号来改进基于强化学习的推荐器的表示学习。

3 METHOD

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
模型通过联合训练这几种损失函数,利用监督学习和强化学习的方法增强模型的表现。原始序列和增强序列的对比学习部分有助于提升模型对状态的辨别能力和泛化能力。

3.1 Task Formulation

在这里插入图片描述
根据用户的交互序列,通过序列模型G得到交互序列的隐状态表示 St,在经过全连接层,的到yt+1,即每个候选物品作为推荐物品的概率分布。

3.2 Reinforcement Learning Setup
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

3.3 State Augmentations

由于推荐器是根据历史数据进行训练而没有进行在线探索,因此代理只能调查离线训练数据中发生的状态-动作对。 因此,Q 网络可能无法估计未见状态的价值函数。 为此,我们建议在训练阶段使用状态增强来学习更好的价值函数。 基于所描述的 RL 设置,我们然后讨论给定状态的变换设计,它将局部扰动与具有相似值函数估计的状态相结合,以增强 RL 智能体的泛化能力。 旋转、平移、颜色抖动等增强通常用于增加计算机视觉领域中数据点的多样性。 这种变换可以保留变换后图像的语义。 然而,在推荐场景中,过于激进的状态增强策略最终可能会损害强化学习代理,因为原始状态的奖励可能与增强状态的奖励不一致。 为了避免奖励函数的显式建模,在执行状态增强时持有的关键假设是增强状态的直接奖励应该与原始状态的奖励相似。 因此,状态增强的选择需要是局部变换来扰乱原始状态

四种状态增强策略
在这里插入图片描述在这里插入图片描述

在这里插入图片描述

3.4 Contrastive Training for RL Recommenders

基于强化学习的对比损失中,我们将同一状态的不同增强定义为正对。 至于负样本,我们只是从另一个序列中随机采样另一个状态。 因此,基于强化学习的对比损失是将同一序列状态的不同增强的表示拉向彼此,同时将来自不同序列的状态表示推开。 为了实现这一点,对比损失学会最小化同一状态的增强视图之间的 Q 值差异,并最大化从其他序列导出的状态之间的 Q 值差异。
在这里插入图片描述

3.5 Discussion
所提出的 CSA 可以用作学习框架并与现有推荐模型集成,只要模型可以将输入序列映射到隐藏状态即可。 CSA 可以被视为探索状态增强和对比学习的尝试,以改进离线环境中基于有偏差的状态动作数据训练的 RL 代理。 所提出的方法适用于通用推荐,即更灵活的奖励设置(例如新颖性和停留时间)也可以用作奖励函数。

  • 40
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值