A Real-World Benchmark for Reinforcement Learningbased Recommender System

最新推荐文章于 2024-07-16 21:18:52 发布

kennyadelaide

最新推荐文章于 2024-07-16 21:18:52 发布

阅读量330

点赞数 1

分类专栏：推荐系统文章标签：推荐算法

本文链接：https://blog.csdn.net/qq_17674161/article/details/121968732

版权

推荐系统专栏收录该内容

13 篇文章 3 订阅

订阅专栏

推荐系统中的强化学习一半比较少见。原因在于很少对强化学习研究，第二一个是强化学习要求的数据一半是人工模拟数据，且其评估环境也是模拟的。这也是现阶段基于推荐系统强化学习的劣势。现有的方法可以通过将传统的数据转化为强化学习的数据集（named semi-simulated RS datasets）。在论文中有着提示：

该转化策略我认为可能是强化学习主要的策略之一，全模拟的人工数据带来的问题是：不能真实的反馈用户的偏好。而转化数据存在的缺点是转化可能是不合理的。传统标准数据集转化为强化学习的数据集格式，可能不能真实反映出传统数据集的数据分布以及用户偏好，信息熵可能不能真实的被表达。

强化学习的另一个问题是缺乏解决用户无偏估计的方法。现有推荐系统存在两个验证指标（recall rate and accuracy）。而强化学习推荐系统为（cumulative rewards：累积奖励（这个中文概念可能不是很准确））。

传统的验证指标为间接指标。强化学习指标很大程度上依赖于模拟环境与真实环境之间的差异。其差异可能导致推断策略产生错误的结果。在这篇文章中，作者讨论了最近研究解决 extrapolation error 的方法，强化学习以及反事实策略评估。

这是这篇文章主要研究的三个问题。

作者提出了开源的RL4RS 方法，主要的目的是满足日益增长的强化学习环境而提出的。

包括一个大规模的原始日志数据，来源于模拟环境中，以及一个强化学习的基线。

什么是基线，通过阅读大量文献，个人的理解为：通过线性函数优化方案，挖缺用户的偏好。基线是研究者对于用户以及物品之间的偏好定义模型以及范式。基线的定义方式有很多，有线性，有network，有RL etc. . 很多论文提出的推荐系统架构使用了多个基线的组合，大大提高了推荐系统的准确性。

论文中作者对于 extrapolation error 的描述做了三个方面的描述：

通过以上三个方面的描述，减少extrapolation error 是很重要的方法。本文论文描述认为，作者提出的基线是满足所有要求的基线，同时讨论了离线训练策略，extrapolation error 以及反事实策略评估，并希望能够促进该领域的发展。

基于增强学习的推荐系统的构建是需要某些条件的：

1，特征的构建必须符合论文中所提出的特征格式。

2，the way to measure whether a recommendation problem should be modeled as an RL problem is to see whether the recommendation decision in one step has a long-term impact.

In terms of reinforcement learning formula, the recommendation of each step is to maximize 𝑟(𝑠𝑡 , 𝑎𝑡) + 𝑉∗ (𝑠𝑡+1), where 𝑟(𝑠𝑡 , 𝑎𝑡) is the expected reward when recommending item 𝑎𝑡 at state 𝑠𝑡,

and 𝑉∗ (𝑠𝑡+1 ) represents the maximum reward of next state under current policy.When there is no long-term impact or the long-term impact is small, the RL problem degenerates into an ordinary sequential recommendation problem, which only maximizes the reward of the current step.

作者通过建立一个数据理解工具去衡量长期的影响，不需要建立复杂的模型环境，也不需要学习一个价值函数。该工具合一将RL 转化为一个序列建模问题。

Michael Janner, Qiyang Li, and Sergey Levine. Reinforcement learning

as one big sequence modeling problem. arXiv preprint arXiv:2106.02039 ,

2021.

Lili Chen, Lu Kevin, Rajeswaran Aravind, Lee Kimin, Grover Aditya, Laskin

Michael, Abbeel Pieter, Srinivas Aravind, and Mordatch Igor. Decision

transformer: Reinforcement learning via sequence modeling. arXiv preprint

arXiv:2106.01345 , 2021.

在上面两篇文章中对该工具实现的思想做了详细的描述。

实际上RL是一种策略，本人对相关的研究没有接触过，后续的论文看起来比较不清晰，可能需要话一段时间摸头。就写到这里

kennyadelaide

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
A Real-World Benchmark for Reinforcement Learningbased Recommender System

推荐系统中的强化学习一半比较少见。原因在于很少对强化学习研究，第二一个是强化学习要求的数据一半是人工模拟数据，且其评估环境也是模拟的。这也是现阶段基于推荐系统强化学习的劣势。现有的方法可以通过将传统的数据转化为强化学习的数据集（named semi-simulated RS datasets）。在论文中有着提示：该转化策略我认为可能是强化学习主要的策略之一，全模拟的人工数据带来的问题是：不能真实的反馈用户的偏好。而转化数据存在的缺点是转化可能是不合理的。传统标准数据集转化为强化学习的数据集格.
复制链接

扫一扫