RS Meet DL(54)-使用GAN搭建强化学习仿真环境

本文探讨了如何运用GAN生成器和判别器构建强化学习的仿真环境,旨在解决电商推荐系统中数据量不足和线下训练的问题。通过模拟用户状态、动作、奖励和状态转移,生成器产生近似真实环境的推荐序列,判别器则负责区分真实与生成数据,以提升生成质量。训练完成后,仿真环境可用于强化学习模型的充分训练。
摘要由CSDN通过智能技术生成

京东对于强化学习感觉非常执着啊,咱们在之前已经介绍过三篇京东公开出来的强化学习文章了。今天咱们再来介绍一篇,这一篇中,重点介绍了如何使用GAN搭建一个强化学习的仿真环境。一起来看下吧。

论文名称:《Toward Simulating Environments in Reinforcement Learning Based Recommendations》

论文下载地址:https://arxiv.org/abs/1906.11462

1、背景

在电商领域呢,使用强化学习做推荐,可以带来两方面的好处:
1)通过用户状态的改变,可以不断地实时调整推荐策略
2)可以优化用户的长期收益,例如整个session的收益,而非推荐单个物品的收益

但是,使用强化学习也有一定的限制,主要有:
1)我们通常使用用户对推荐结果的实时反馈来训练强化学习推荐模型,最为有效的方法是使用线上的A/Btest来产生有效的数据,但是使用A/B来收集数据通常需要几周的时间,同时部署一个新的方法也需要工程上耗费更多的资源和精力。
2)同时,如果一个推荐系统没有被充分训练好的话,A/B实验往往会对用户的体验造成一定的损害。
3)在电商领域,商品数量和用户数量都是数目巨大的,导致整个的状态空间和动作空间十分巨大,因此需要极大规模的数据量来保证模型的鲁棒性。尽管日志数据数量非常多,但是对于每个用户来说,数量是极少的。

因此,为了克服上述挑战,解决数据量问题以及线下充分训练问题,这里我们提出了一个基于GAN的强化学习仿真环境。一起来看一下吧。

2、问题陈述

作为强化学习的问题陈述,当然少不了四大基本元素:状态空间、动作空间、奖励、状态转移概率。当然有时候还有折扣系数等等,这里不做介绍。

状态空间S:这里我们定义的用户状态s={i1,i2,...,iN},是用户近期浏览过的N个商品,以及对应的反馈。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值