A Real-World Benchmark for Reinforcement Learningbased Recommender System

推荐系统中的强化学习一半比较少见。原因在于很少对强化学习研究,第二一个是强化学习要求的数据一半是人工模拟数据,且其评估环境也是模拟的。 这也是现阶段基于推荐系统强化学习的劣势。 现有的方法可以通过将传统的数据转化为强化学习的数据集(named semi-simulated RS datasets)。在论文中有着提示:

 该转化策略我认为可能是强化学习主要的策略之一,全模拟的人工数据带来的问题是:不能真实的反馈用户的偏好。而转化数据存在的缺点是转化可能是不合理的。 传统标准数据集转化为强化学习的数据集格式,可能不能真实反映出传统数据集的数据分布以及用户偏好,信息熵可能不能真实的被表达。

强化学习的另一个问题是缺乏解决用户无偏估计的方法。现有推荐系统存在两个验证指标(recall rate and accuracy)。而强化学习推荐系统为(cumulative rewards:累积奖励(这个中文概念可能不是很准确))。

传统的验证指标为间接指标。强化学习指标很大程度上依赖于模拟环境与真实环境之间的差异。其差异可能导致推断策略产生错误的结果。在这篇文章中,作者讨论了最近研究解决 extrapolation error 的方法 , 强化学习 以及 反事实策略评估。

这是这篇文章主要研究的三个问题。

作者提出了开源的RL4RS 方法, 主要的目的是满足日益增长的强化学习环境而提出的。

 

 包括一个大规模的原始日志数据,来源于模拟环境中, 以及一个强化学习的基线。 

什么是基线,通过阅读大量文献, 个人的理解为: 通过线性函数优化方案,挖缺用户的偏好。 基线是研究者对于用户以及物品之间的偏好定义模型以及范式。 基线的定义方式有很多, 有线性,有network, 有RL etc. .  很多论文提出的推荐系统架构使用了多个基线的组合,大大提高了推荐系统的准确性。

论文中作者对于 extrapolation error 的描述做了三个方面的描述:

通过以上三个方面的描述,减少extrapolation error 是很重要的方法。 本文论文描述认为,作者提出的基线是满足所有要求的基线,同时讨论了离线训练策略,extrapolation error 以及反事实策略评估, 并希望能够促进该领域的发展。

 基于增强学习的推荐系统的构建是需要某些条件的:

  1, 特征的构建必须符合论文中所提出的特征格式。

  2,the way to measure whether a recommendation problem should be modeled as an RL problem is to see whether the recommendation decision in one step has a long-term impact.

In terms of reinforcement learning formula, the recommendation of each step is to maximize 𝑟(𝑠𝑡 , 𝑎𝑡) + 𝑉∗ (𝑠𝑡+1), where 𝑟(𝑠𝑡 , 𝑎𝑡) is the expected reward when recommending item 𝑎𝑡 at state 𝑠𝑡,
and 𝑉∗ (𝑠𝑡+1 ) represents the maximum reward of next state under current policy.When there is no long-term impact or the long-term impact is small, the RL problem degenerates into an ordinary sequential recommendation problem, which only maximizes the reward of the current step.

作者通过建立一个数据理解工具去衡量长期的影响, 不需要建立复杂的模型环境,也不需要学习一个价值 函数。该工具合一将RL 转化为一个序列建模问题。

Michael Janner, Qiyang Li, and Sergey Levine. Reinforcement learning
as one big sequence modeling problem. arXiv preprint arXiv:2106.02039 ,
2021.
Lili Chen, Lu Kevin, Rajeswaran Aravind, Lee Kimin, Grover Aditya, Laskin
Michael, Abbeel Pieter, Srinivas Aravind, and Mordatch Igor. Decision
transformer: Reinforcement learning via sequence modeling. arXiv preprint
arXiv:2106.01345 , 2021.
在上面两篇文章中对该工具实现的思想做了详细的描述。
实际上RL是一种策略,本人对相关的研究没有接触过,后续的论文看起来比较不清晰,可能需要话一段时间摸头。就写到这里
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本火锅店点餐系统采用Java语言和Vue技术,框架采用SSM,搭配Mysql数据库,运行在Idea里,采用小程序模式。本火锅店点餐系统提供管理员、用户两种角色的服务。总的功能包括菜品的查询、菜品的购买、餐桌预定和订单管理。本系统可以帮助管理员更新菜品信息和管理订单信息,帮助用户实现在线的点餐方式,并可以实现餐桌预定。本系统采用成熟技术开发可以完成点餐管理的相关工作。 本系统的功能围绕用户、管理员两种权限设计。根据不同权限的不同需求设计出更符合用户要求的功能。本系统中管理员主要负责审核管理用户,发布分享新的菜品,审核用户的订餐信息和餐桌预定信息等,用户可以对需要的菜品进行购买、预定餐桌等。用户可以管理个人资料、查询菜品、在线点餐和预定餐桌、管理订单等,用户的个人资料是由管理员添加用户资料时产生,用户的订单内容由用户在购买菜品时产生,用户预定信息由用户在预定餐桌操作时产生。 本系统的功能设计为管理员、用户两部分。管理员为菜品管理、菜品分类管理、用户管理、订单管理等,用户的功能为查询菜品,在线点餐、预定餐桌、管理个人信息等。 管理员负责用户信息的删除和管理,用户的姓名和手机号都可以由管理员在此功能里看到。管理员可以对菜品的信息进行管理、审核。本功能可以实现菜品的定时更新和审核管理。本功能包括查询餐桌,也可以发布新的餐桌信息。管理员可以查询已预定的餐桌,并进行审核。管理员可以管理公告和系统的轮播图,可以安排活动。管理员可以对个人的资料进行修改和管理,管理员还可以在本功能里修改密码。管理员可以查询用户的订单,并完成菜品的安排。 当用户登录进系统后可以修改自己的资料,可以使自己信息的保持正确性。还可以修改密码。用户可以浏览所有的菜品,可以查看详细的菜品内容,也可以进行菜品的点餐。在本功能里用户可以进行点餐。用户可以浏览没有预定出去的餐桌,选择合适的餐桌可以进行预定。用户可以管理购物车里的菜品。用户可以管理自己的订单,在订单管理界面里也可以进行查询操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值