讲个故事1.0

一、DORL模型

Alt
该论文为解决传统离线强化学习带来的马太效应提出了DORL模型,其主要贡献是为reward增加了熵惩罚。
该模型主要包括5个部分:Offline Logs of πβ、Ensemble User Model、RL Agent、State Tracker以及Entropy Penalizer。该模型可以很好地缓解马太效应。

二、如何对用户/用户模型进行视频推荐(以短视频推荐场景为例结合DORL模型框架示意图)

2.1准备阶段

首先,将 πβ 在在线环境 M(MDP即马尔科夫决策过程) 中运行,它的推荐行为会被记录下来形成离线数据集,即Offline Logs of πβ。其中πβ为 基线策略,代表了一个已经存在的、普通的推荐策略,β是baseline的意思,论文中是使用了如下策略作为基线策略。
Alt
这个Offline Logs of πβ包含了用户在之前的推荐交互中产生的大量 (x, y) 样本。

其中:

  1. x代表用户的状态信息
  2. y代表之前基线算法β给出的推荐动作
    接着使用(x, y) 样本对πβ进行预训练。去捕捉到一些基本的用户喜好和行为特征。
    然后在预训练的基础上,对πβ进行惩罚。目的是让模型不仅能够拟合历史数据,还能够更好地泛化到新的用户和场景。

2.2正式应用

将处理好的πβ部署到集成用户模型上,进行仿用户在线交互

  1. 首先,πβ会先给用户模型推荐一个视频
  2. 接着用户模型对当前推荐的视频进行反馈,并计算得到奖励​​​​​​​​​​​​​​ r ~ {\widetilde r} r
    最终得到的奖励 r ~ {\widetilde r} r 的计算公式如下:
    Alt
    其中, r ^ \hat{r} r^是模型生成的估计奖励(对三层GPM的 r ^ \hat{r} r^取平均得到 r ^ \hat{r} r^),PU是MOPO原有的保守思想对不确定度(uncertainty)的惩罚(对三层GPM的PU取最大值得到PU),而PE就是论文作者的工作中加入的一项实现为熵(entropy)的鼓励项。
  3. RL Agent(πθ)接收 r ~ {\widetilde r} r 以及下一状态s,并给用户模型以及State Tracker一个推荐动作a(即给出一个视频进行推荐)。
    其中,RL Agent是指强化学习系统中的决策主体,即策略πθ(是由actor-critic算法实现的)。
    actor-critic是一种常用的强化学习算法,它由两部分组成: Actor网络负责根据当前状态输出最佳动作,Critic网络负责评估Actor的动作,给出动作的价值预测。
  4. State Tracker 接收​​​​​​​​​​​​​​ r ~ {\widetilde r} r 以及来自πθ的推荐动作a,并给出下一个状态s。
    其中, State Tracker指状态跟踪器,DORL中使用朴素平均层作为状态跟踪器。状态跟踪器的解释如下:
    Alt
    重复步骤2~4直至退出。
    实际情况中,退出是指用户退出软件不再进行短视频浏览,而在训练模型的过程中,当模型在前N轮操作中推荐的具有相同类别的项目超过𝑀时,交互也将终止。

三、当用户为新用户时,如何进行首个视频推荐

对于新用户,由DORL模型的框架示意图可以看出,首个视频推荐可能是根据处理过的πβ进行推荐的,也可能是根据下面几种策略:

  1. 冷启动策略:
    对于完全无历史数据的新用户,可以采用基于内容的冷启动推荐策略。
    根据用户注册时填写的个人兴趣标签、年龄、地理位置等属性信息,推荐一些热门且可能符合新用户兴趣的视频。
  2. 群体偏好学习:
    在没有个人历史数据的情况下,可以参考同类群体用户的平均喜好偏好。
    通过协同过滤等技术,找到与当前新用户特征相似的用户群体,并推荐该群体的热门视频。

四、对Entropy Penalizer计算过程的纠正

PE的具体实现如下图,其可由当前时刻的前序推荐列表在离线数据中,推出的下一个位置的熵算得。
如图中,这个前序列表可以是 (t-2) 时刻的视频{8},或者(t-2,t-1)时刻的视频{3,8},或者(t−2,t−1,t)时刻的视频{3,7,8}。那{3,7,8}举例,如果在离线数据中,{3,7,8}后面所紧跟的视频比较随机,则?位置处的熵比较大,对应的奖励就越大,这种情况我们应该适当加大学习力度,因为这种情况下的学习更加无偏。我们将不同长度的前序序列对应的下一个位置的熵进行求和,即可得到最终的PE。
Alt
以 k=3 为例,它会搜索所有用户的推荐历史记录,找到所有满足[{3, 7, 8}, ?] 的连续子序列。这里 “?” 可以匹配任意视频,{3, 7, 8} 是一个排序好的集合,可以覆盖其所有的排列组合,如 [8, 3, 7] 或 [7, 3, 8]。
对于这些子序列,统计 “?” 的出现频率,就可以估计出给定前三个推荐物品时,行为策略 πβ 的熵。
这样计算得到的熵值就是 PE,用于在目标函数中对推荐结果的多样性进行正则化惩罚,从而缓解马太效应。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值