ICML2019|一种基于强化学习的推荐系统(GAN用户模型,佐治亚理工学院联合蚂蚁金服提出且已开源)...

本文介绍了一种使用生成对抗网络(GAN)模拟用户行为的强化学习推荐系统框架。通过级联深度Q网络(DQN)算法,该模型能有效处理大量商品并提高推荐点击率。实验显示,相较于传统模型,该方法能更好地解释用户行为并提供长期价值。
摘要由CSDN通过智能技术生成

Generative Adversarial User Model for Reinforcement Learning Based Recommendation System

Xinshi Chen,  Shuang Li, Hui Li, Shaohua Jiang, Yuan Qi, Le Song

Georgia Institute of Technology, Ant Financial

ICML 2019

http://proceedings.mlr.press/v97/chen19f/chen19f.pdf

虽然很多研究人员对如何将强化学习用于推荐系统具有非常浓厚的兴趣,但是,该项研究存在诸多挑战。在推荐系统中,在线用户可以视为environment,但是其中的奖励函数和环境动力学都没有比较清晰的定义,这就使得强化学习用于推荐系统比较具有挑战性。

这篇文章为推荐系统提出一种新的基于模型的强化学习框架,其中利用GAN来模拟用户行为动力学,并且学习奖励函数。将此用户模型作为模拟环境,作者们提出了一种新的级联DQN算法,进而得到一种组合推荐策略,该策略能够比较高效地处理大量候选商品。

在真实数据上的实验表明,这种生成式对抗用户模型相对其他类似模型能够更好地解释用户行为,而且基于这种模型的强化学习策略对于用户来说能够得到更好的长期奖励,而且推荐系统的点击率更高。

强化学习用于推荐系统的主要障碍之一为,环境只能对登录的在线用户作出响应。

具体表现在以下两个方面

其一即为奖励函数,点击与否不能凸显出用户对不同商品之间的偏好度。

其二即为非基于模型的强化学习缺陷比较凸显

这篇文章的主要贡献如下

1 联合最小最大优化算法,对新用户在线自适应

2 级联DQN算法, 候选集大小的线性时间复杂度

本文用于对比的部分相关算法如下

下面是推荐问题的场景设置

数学描述及关键元素描述如下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值