京东对于强化学习感觉非常执着啊,咱们在之前已经介绍过三篇京东公开出来的强化学习文章了。今天咱们再来介绍一篇,这一篇中,重点介绍了如何使用GAN搭建一个强化学习的仿真环境。一起来看下吧。
论文名称:《Toward Simulating Environments in Reinforcement Learning Based Recommendations》
论文下载地址:https://arxiv.org/abs/1906.11462
1、背景
在电商领域呢,使用强化学习做推荐,可以带来两方面的好处:
1)通过用户状态的改变,可以不断地实时调整推荐策略
2)可以优化用户的长期收益,例如整个session的收益,而非推荐单个物品的收益
但是,使用强化学习也有一定的限制,主要有:
1)我们通常使用用户对推荐结果的实时反馈来训练强化学习推荐模型,最为有效的方法是使用线上的A/Btest来产生有效的数据,但是使用A/B来收集数据通常需要几周的时间,同时部署一个新的方法也需要工程上耗费更多的资源和精力。
2)同时,如果一个推荐系统没有被充分训练好的话,A/B实验往往会对用户的体验造成一定的损害。
3)在电商领域,商品数量和用户数量都是数目巨大的,导致整个的状态空间和动作空间十分巨大,因此需要极大规模的数据量来保证模型的鲁棒性。尽管日志数据数量非常多,但是对于每个用户来说,数量是极少的。
因此,为了克服上述挑战,解决数据量问题以及线下充分训练问题,这里我们提出了一个基于GAN的强化学习仿真环境。一起来看一下吧。
2、问题陈述
作为强化学习的问题陈述,当然少不了四大基本元素:状态空间、动作空间、奖励、状态转移概率。当然有时候还有折扣系数等等,这里不做介绍。
状态空间S:这里我们定义的用户状态s={i1,i2,...,iN},是用户近期浏览过的N个商品,以及对应的反馈。