【推荐系统论文】推荐系统的监督优势 Actor-Critic

  • 文章标题:Supervised Advantage Actor-Critic for
    Recommender Systems
  • 发表时间:2022

摘要

  • 通过奖励信号将基于会话或顺序的推荐作为强化学习 (RL) 是朝着最大化累积利润的推荐系统 (RS) 的一个有前途的研究方向。 然而,由于策略外训练、巨大的动作空间和缺乏足够的奖励信号等挑战,在 RS 设置中直接使用 RL 算法是不切实际的。 最近用于 RS 的 RL 方法试图通过将 RL 和(自)监督顺序学习相结合来应对这些挑战,但仍然存在一定的局限性。 例如,由于缺乏负奖励信号,Q 值的估计倾向于偏向正值。 此外,Q 值还很大程度上取决于序列的特定时间戳。
  • 为了解决上述问题,我们提出了用于训练 RL 组件的负采样策略,并将其与监督顺序学习相结合。 我们将此方法称为监督负 Q 学习 (SNQN)。 基于采样(消极)动作(项目),我们可以计算积极动作相对于平均情况的“优势”,这可以进一步用作学习监督顺序部分的归一化权重。 这导致了另一个学习框架:监督优势演员评论家(SA2C)。 我们用四个最先进的顺序推荐模型实例化 SNQN 和 SA2C,并在两个真实世界的数据集上进行实验。 实验结果表明,所提出的方法比最先进的监督方法和现有的自监督强化学习方法取得了显着更好的性能。 代码将开源。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值