【推荐系统论文】推荐系统的监督优势 Actor-Critic

最新推荐文章于 2024-04-05 21:13:40 发布

Wwwilling

最新推荐文章于 2024-04-05 21:13:40 发布

阅读量426

点赞数

分类专栏：推荐系统论文阅读强化学习文献阅读深度强化学习文章标签：机器学习推荐系统强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43058281/article/details/127059813

版权

推荐系统论文阅读同时被 3 个专栏收录

19 篇文章

订阅专栏

强化学习文献阅读

19 篇文章

订阅专栏

深度强化学习

12 篇文章

订阅专栏

文章指出将基于会话或顺序的推荐作为强化学习是有前途的研究方向，但在推荐系统中直接使用RL算法不切实际，现有方法也有局限性。为此提出监督负Q学习（SNQN），结合负采样策略与监督顺序学习，还得到监督优势演员评论家（SA2C）框架。实验表明该方法性能更优，代码将开源。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章标题：Supervised Advantage Actor-Critic for
Recommender Systems
发表时间：2022

摘要

通过奖励信号将基于会话或顺序的推荐作为强化学习 (RL) 是朝着最大化累积利润的推荐系统 (RS) 的一个有前途的研究方向。然而，由于策略外训练、巨大的动作空间和缺乏足够的奖励信号等挑战，在 RS 设置中直接使用 RL 算法是不切实际的。最近用于 RS 的 RL 方法试图通过将 RL 和（自）监督顺序学习相结合来应对这些挑战，但仍然存在一定的局限性。例如，由于缺乏负奖励信号，Q 值的估计倾向于偏向正值。此外，Q 值还很大程度上取决于序列的特定时间戳。
为了解决上述问题，我们提出了用于训练 RL 组件的负采样策略，并将其与监督顺序学习相结合。我们将此方法称为监督负 Q 学习 (SNQN)。基于采样（消极）动作（项目），我们可以计算积极动作相对于平均情况的“优势”，这可以进一步用作学习监督顺序部分的归一化权重。这导致了另一个学习框架：监督优势演员评论家（SA2C）。我们用四个最先进的顺序推荐模型实例化 SNQN 和 SA2C，并在两个真实世界的数据集上进行实验。实验结果表明，所提出的方法比最先进的监督方法和现有的自监督强化学习方法取得了显着更好的性能。代码将开源。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。