ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)...

Generative Adversarial User Model for Reinforcement Learning Based Recommendation System

Xinshi Chen,  Shuang Li, Hui Li, Shaohua Jiang, Yuan Qi, Le Song

Georgia Institute of Technology, Ant Financial

ICML 2019

http://proceedings.mlr.press/v97/chen19f/chen19f.pdf

虽然很多研究人员对如何将强化学习用于推荐系统具有非常浓厚的兴趣,但是,该项研究存在诸多挑战。在推荐系统中,在线用户可以视为environment,但是其中的奖励函数和环境动力学都没有比较清晰的定义,这就使得强化学习用于推荐系统比较具有挑战性。

这篇文章为推荐系统提出一种新的基于模型的强化学习框架,其中利用GAN来模拟用户行为动力学,并且学习奖励函数。将此用户模型作为模拟环境,作者们提出了一种新的级联DQN算法,进而得到一种组合推荐策略,该策略能够比较高效地处理大量候选商品。

在真实数据上的实验表明,这种生成式对抗用户模型相对其他类似模型能够更好地解释用户行为,而且基于这种模型的强化学习策略对于用户来说能够得到更好的长期奖励,而且推荐系统的点击率更高。

强化学习用于推荐系统的主要障碍之一为,环境只能对登录的在线用户作出响应。

具体表现在以下两个方面

其一即为奖励函数,点击与否不能凸显出用户对不同商品之间的偏好度。

其二即为非基于模型的强化学习缺陷比较凸显

这篇文章的主要贡献如下

1 联合最小最大优化算法,对新用户在线自适应

2 级联DQN算法, 候选集大小的线性时间复杂度

本文用于对比的部分相关算法如下

下面是推荐问题的场景设置

数学描述及关键元素描述如下

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值