推荐系统中的强化学习一半比较少见。原因在于很少对强化学习研究,第二一个是强化学习要求的数据一半是人工模拟数据,且其评估环境也是模拟的。 这也是现阶段基于推荐系统强化学习的劣势。 现有的方法可以通过将传统的数据转化为强化学习的数据集(named semi-simulated RS datasets)。在论文中有着提示:
该转化策略我认为可能是强化学习主要的策略之一,全模拟的人工数据带来的问题是:不能真实的反馈用户的偏好。而转化数据存在的缺点是转化可能是不合理的。 传统标准数据集转化为强化学习的数据集格式,可能不能真实反映出传统数据集的数据分布以及用户偏好,信息熵可能不能真实的被表达。
强化学习的另一个问题是缺乏解决用户无偏估计的方法。现有推荐系统存在两个验证指标(recall rate and accuracy)。而强化学习推荐系统为(cumulative rewards:累积奖励(这个中文概念可能不是很准确))。
传统的验证指标为间接指标。强化学习指标很大程度上依赖于模拟环境与真实环境之间的差异。其差异可能导致推断策略产生错误的结果。在这篇文章中,作者讨论了最近研究解决 extrapolation error 的方法 , 强化学习 以及 反事实策略评估。
这是这篇文章主要研究的三个问题。
作者提出了开源的RL4RS 方法, 主要的目的是满足日益增长的强化学习环境而提出的。
包括一个大规模的原始日志数据,来源于模拟环境中, 以及一个强化学习的基线。
什么是基线,通过阅读大量文献, 个人的理解为: 通过线性函数优化方案,挖缺用户的偏好。 基线是研究者对于用户以及物品之间的偏好定义模型以及范式。 基线的定义方式有很多, 有线性,有network, 有RL etc. . 很多论文提出的推荐系统架构使用了多个基线的组合,大大提高了推荐系统的准确性。
论文中作者对于 extrapolation error 的描述做了三个方面的描述:
通过以上三个方面的描述,减少extrapolation error 是很重要的方法。 本文论文描述认为,作者提出的基线是满足所有要求的基线,同时讨论了离线训练策略,extrapolation error 以及反事实策略评估, 并希望能够促进该领域的发展。
基于增强学习的推荐系统的构建是需要某些条件的:
1, 特征的构建必须符合论文中所提出的特征格式。
2,the way to measure whether a recommendation problem should be modeled as an RL problem is to see whether the recommendation decision in one step has a long-term impact.
作者通过建立一个数据理解工具去衡量长期的影响, 不需要建立复杂的模型环境,也不需要学习一个价值 函数。该工具合一将RL 转化为一个序列建模问题。