Generative Adversarial User Model for Reinforcement Learning Based Recommendation System
Xinshi Chen, Shuang Li, Hui Li, Shaohua Jiang, Yuan Qi, Le Song
Georgia Institute of Technology
http://proceedings.mlr.press/v97/chen19f/chen19f.pdf
强化学习用于推荐系统领域,相关的研究比较多,挑战性也比较多。这种场景中,线上的用户可以看做环境,奖励函数和环境的动态性都无法清晰定义,这就使得强化学习的应用比较具有挑战性。
这篇文章提出一种新型基于模型的强化学习框架,用于推荐系统,提出一种生成式对抗网络,来模拟用户行为的动态性,并且学习相应的奖励函数。
将这种用户模型用作模拟环境,作者们提出一种新的级联DQN算法,该算法可以得到组合推荐策略,可以高效处理大量候选商品。
在真实数据上的实验表明,这种生成式对抗用户模型相对其他模型可以更好地解释用户行为,基于该模型的强化学习策略用户可以得到一种更好的长期奖励,系统也可以具有更高的点击率。
强化学习用于推荐系统的挑战之一在于
挑战之二在于
这篇文章的主要贡献在于
推荐系统一些相关方法简介如下
场景描述如下