讲个故事1.0

星星不想醒

已于 2024-07-17 17:33:00 修改

阅读量764

点赞数 28

文章标签：笔记

于 2024-07-17 16:19:05 首次发布

本文链接：https://blog.csdn.net/m0_67197896/article/details/140497767

版权

一、DORL模型

Alt
该论文为解决传统离线强化学习带来的马太效应提出了DORL模型，其主要贡献是为reward增加了熵惩罚。
该模型主要包括5个部分：Offline Logs of π_β、Ensemble User Model、RL Agent、State Tracker以及Entropy Penalizer。该模型可以很好地缓解马太效应。

二、如何对用户/用户模型进行视频推荐（以短视频推荐场景为例结合DORL模型框架示意图）

2.1准备阶段

首先，将 π_β 在在线环境 M（MDP即马尔科夫决策过程）中运行,它的推荐行为会被记录下来形成离线数据集，即Offline Logs of π_β。其中π_β为基线策略，代表了一个已经存在的、普通的推荐策略，β是baseline的意思，论文中是使用了如下策略作为基线策略。
Alt
这个Offline Logs of π_β包含了用户在之前的推荐交互中产生的大量 (x, y) 样本。

其中:

x代表用户的状态信息
y代表之前基线算法β给出的推荐动作
接着使用(x, y) 样本对π_β进行预训练。去捕捉到一些基本的用户喜好和行为特征。
然后在预训练的基础上,对π_β进行惩罚。目的是让模型不仅能够拟合历史数据,还能够更好地泛化到新的用户和场景。

2.2正式应用

将处理好的π_β部署到集成用户模型上，进行仿用户在线交互。

首先，π_β会先给用户模型推荐一个视频
接着用户模型对当前推荐的视频进行反馈，并计算得到奖励 ${\widetilde r}$
最终得到的奖励 ${\widetilde r}$ 的计算公式如下：

其中， $\hat{r}$ 是模型生成的估计奖励（对三层GPM的 $\hat{r}$ 取平均得到 $\hat{r}$ ）,P_U是MOPO原有的保守思想对不确定度（uncertainty）的惩罚（对三层GPM的P_U取最大值得到P_U），而P_E就是论文作者的工作中加入的一项实现为熵（entropy）的鼓励项。
RL Agent（π_θ）接收 ${\widetilde r}$ 以及下一状态s，并给用户模型以及State Tracker一个推荐动作a（即给出一个视频进行推荐）。
其中，RL Agent是指强化学习系统中的决策主体，即策略π_θ（是由actor-critic算法实现的）。
actor-critic是一种常用的强化学习算法,它由两部分组成: Actor网络负责根据当前状态输出最佳动作，Critic网络负责评估Actor的动作,给出动作的价值预测。
State Tracker 接收 ${\widetilde r}$ 以及来自π_θ的推荐动作a，并给出下一个状态s。
其中， State Tracker指状态跟踪器，DORL中使用朴素平均层作为状态跟踪器。状态跟踪器的解释如下：

重复步骤2~4直至退出。
实际情况中，退出是指用户退出软件不再进行短视频浏览，而在训练模型的过程中，当模型在前N轮操作中推荐的具有相同类别的项目超过𝑀时，交互也将终止。

三、当用户为新用户时，如何进行首个视频推荐

对于新用户，由DORL模型的框架示意图可以看出，首个视频推荐可能是根据处理过的π_β进行推荐的，也可能是根据下面几种策略：

冷启动策略:
对于完全无历史数据的新用户,可以采用基于内容的冷启动推荐策略。
根据用户注册时填写的个人兴趣标签、年龄、地理位置等属性信息,推荐一些热门且可能符合新用户兴趣的视频。
群体偏好学习:
在没有个人历史数据的情况下,可以参考同类群体用户的平均喜好偏好。
通过协同过滤等技术,找到与当前新用户特征相似的用户群体,并推荐该群体的热门视频。

四、对Entropy Penalizer计算过程的纠正

P_E的具体实现如下图，其可由当前时刻的前序推荐列表在离线数据中，推出的下一个位置的熵算得。
如图中，这个前序列表可以是 (t-2) 时刻的视频{8}，或者(t-2,t-1)时刻的视频{3,8}，或者(t−2,t−1,t)时刻的视频{3,7,8}。那{3,7,8}举例，如果在离线数据中，{3,7,8}后面所紧跟的视频比较随机，则?位置处的熵比较大，对应的奖励就越大，这种情况我们应该适当加大学习力度，因为这种情况下的学习更加无偏。我们将不同长度的前序序列对应的下一个位置的熵进行求和，即可得到最终的PE。
Alt
以 k=3 为例,它会搜索所有用户的推荐历史记录,找到所有满足[{3, 7, 8}, ?] 的连续子序列。这里 “?” 可以匹配任意视频,{3, 7, 8} 是一个排序好的集合,可以覆盖其所有的排列组合,如 [8, 3, 7] 或 [7, 3, 8]。
对于这些子序列,统计 “?” 的出现频率,就可以估计出给定前三个推荐物品时,行为策略 π_β 的熵。
这样计算得到的熵值就是 P_E,用于在目标函数中对推荐结果的多样性进行正则化惩罚,从而缓解马太效应。