dqn推荐系统_ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)...

本文提出了一种基于强化学习的推荐系统,利用GAN模拟用户行为,通过级联DQN算法优化推荐策略。实验表明,这种方法能更好地解释用户行为,提高长期奖励和点击率。
摘要由CSDN通过智能技术生成

Generative Adversarial User Model for Reinforcement Learning Based Recommendation System

Xinshi Chen,  Shuang Li, Hui Li, Shaohua Jiang, Yuan Qi, Le Song

Georgia Institute of Technology, Ant Financial

ICML 2019

http://proceedings.mlr.press/v97/chen19f/chen19f.pdf

虽然很多研究人员对如何将强化学习用于推荐系统具有非常浓厚的兴趣,但是,该项研究存在诸多挑战。在推荐系统中,在线用户可以视为environment,但是其中的奖励函数和环境动力学都没有比较清晰的定义,这就使得强化学习用于推荐系统比较具有挑战性。

这篇文章为推荐系统提出一种新的基于模型的强化学习框架,其中利用GAN来模拟用户行为动力学,并且学习奖励函数。将此用户模型作为模拟环境,作者们提出了一种新的级联DQN算法,进而得到一种组合推荐策略,该策略能够比较高效地处理大量候选商品。

在真实数据上的实验表明,这种生成式对抗用户模型相对其他类似模型能够更好地解释用户行为,而且基于这种模型的强化学习策略对于用户来说能够得到更好的长期奖励,而且推荐系统的点击率更高。

强化学习用于推荐系统的主要障碍之一为,环境只能对登录的在线用户作出响应。

4f39f76a4c97972d5ef669c4b10a7a62.png

具体表现在以下两个方面

其一即为奖励函数,点击与否不能凸显出用户对不同商品之间的偏好度。

767e82edc4846a270281487ab5789de5.png

其二即为非基于模型的强化学习缺陷比较凸显

e4c8eaf11e8b030824acf1982e380420.png

这篇文章的主要贡献如下

1 联合最小最大优化算法,对新用户在线自适应

2 级联DQN算法, 候选集大小的线性时间复杂度

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值