LIRD(Deep Reinforcement Learning for List-wise Recommendations)论文算法解读

最新推荐文章于 2023-03-24 12:00:05 发布

白水baishui

最新推荐文章于 2023-03-24 12:00:05 发布

阅读量2.5k

点赞数 25

分类专栏： # 强化学习推荐系统文献文章标签：推荐系统强化学习 LIRD 京东论文

本文链接：https://blog.csdn.net/baishuiniyaonulia/article/details/118993388

版权

推荐系统同时被 3 个专栏收录

19 篇文章

订阅专栏

强化学习

14 篇文章

订阅专栏

文献

14 篇文章

订阅专栏

Deep Reinforcement Learning for List-wise Recommendations

文章目录

1. 论文所解决的问题

构建了一个在线的用户-Agent交互环境模拟器，该模拟器适用于模拟在线推荐系统，以在离线的情况下对参数进行预训练和评估；
提出了一个基于深度强化学习推荐框架：LIRD（LIst-wise Recommendation framework based on
Deep reinforcement learning），该框架适用于具有大型动态项空间的推荐场景，并可显著地降低计算量；
在真实的电子商务数据集中验证了所提出框架的有效性，并验证了列表式推荐对精准推荐的重要性。

2. 交互模型

LIRD算法中用户与推荐系统的交互模型是基于MDP模型建立的： $MDP=(S,A,P,R,\gamma)$ 主要包含以下几个参数变量：

$S$ : State space
$S=\{s_1,s_2,...,s_t,...,s_T\},s_t=\{s_t^1,s_t^2,...,s_t^N\}$ ，即状态空间，定义为用户的历史浏览记录，即用户在时间 $t$ 之前浏览的前 $N$ 个项目。 $s_t$ (session)中的浏览项按时间顺序排序；
$A$ : Action space
$A=\{a_1,a_2,...,a_t,...,a_T\},a_t=\{a_t^1,a_t^2,...,a_t^K\}$ ，即动作空间，是当前状态 $s_t$ 向用户推荐的推荐列表，其中 $K$ 是RA(Recommender Agent)每次推荐用户的项的数量；
$R$ : Reward
$R=r(s_t,a_t)$ ，即立即反馈值，RA在 $s_t$ 时推荐了项目列表 $a_t$ 后，即向用户推荐项目列表后，用户会浏览这些其中的项目并提供反馈。用户可以跳过（不点击）、点击或订购其中的项目，RA将根据用户的反馈获得立即反馈。
$P$ : Transition probability
$P=p(s_{t+1}|s_t,a_t)$ ，即状态转移概率，定义为RA推荐项目列表 $a_t$ 后从状态 $s_t$ 转移到 $s_{t+1}$ 的概率。 $P$ 满足MDP的定义，即： $P=p(s_{t+1}|s_t,a_t,s_{t-1},a_{t-1}...,s_1,a_1)=p(s_{t+1}|s_t,a_t)$ 如果用户在状态 $s_t$ 时不点击任何 $a_t$ 中的项目，则下一个状态 $s_{t+1}=s_t$ ；如果用户点击、订购项目列表 $a_t$ 中的项目，则下一个状态 $s_{t+1}$ 将进行更新。
$\gamma$ : Discount factor
$\gamma\in[0,1]$ ，即折扣因子，定义为对未来奖励的现值的折扣系数。当 $\gamma=0$ 时，RA只计算立即反馈；当 $\gamma=1$ 时，未来所有的反馈都被完全计入在 $a_t$ 中。

3. 交互模拟器

说明：
交互模拟器用于模拟在线状态时的用户与推荐系统的交互数据。在线情况时，给定当前状态 $s_t$ ，RA(Recommender Agent)向用户推荐一个项目列表 $a_t$ ，用户浏览对 $a_t$ 中的项目 $a_t^i$ 做出反馈(跳过、点击、订购等)。RA会根据用户的反馈获得立即反馈 $r(s_t，a_t)$ 。模拟在线情况时，可以根据当前状态和选定的行动来预测奖励，然后将 $s_t，a_t，r_t$ 存储起来。

3.1. 用在线数据构建存储

算法1 构建在线模拟器的存储

在这里插入图片描述

符号解释：

$M$ ： $M=\{m_1,m_2,...,m_i,...\}$ ，存储。来存储用户的历史浏览历史，每一个 $m_i$ 都代表了一个交互元组 $((s_i,a_i)\to r_i)$ ；
$B$ ： $B=\{a_1,a_2,...,a_l,...,a_L\}$ ，用户会话记录集合，即推荐项集合；
$s_0$ ： $s_0=\{s_0^1,s_0^2,...,s_0^N\}$ ，用户过去的会话记录，即用户在过去会话中曾经浏览、点击、购买过的物品，可能为空（如果是新用户），也可能已经有记录（之前会话留下的记录）。理论上来说，当前状态 $s$ 之前的所有状态全部可以视作初始状态 $s_0$ ；但实际上，由于 $s$ 的大小是固定的，因此 $s_0$ 实际是指当前状态 $s$ 的前一状态，例如当前状态是 $s_t$ ，则 $s_0=s_{t-1}$ ；
$s$ ： $s=\{s^1,s^2,...,s^L\}$ ，用户当前的会话记录，即用户在当前会话浏览、点击、购买过的物品。大小固定为 $L$ ，只能存储近期的记录。在会话开始时， $s=s_0$ ，随着用户与系统的交互逐渐更新；
$K$ ：即推荐列表长度，它在 $s$ 中以滑动窗口的形式读取用户历史会话记录；
$a$ ： $a=\{a_l,a_{l+1},...,a_{l+k},...a_{l+K-1}\}\in B$ ，推荐列表。其中 $a_{l+k}$ 代表推荐列表中的一个推荐项，用户可以对它做出浏览、点击、购买等行为，同时会产生对应的反馈值，之所以是从 $a_L$ 开始是因为在过去的会话。随着用户与推荐列表 $a$ 中推荐项的交互， $a_{l+k}$ 会逐个追加到 $s$ 中；
$r$ ： $r=\{r_l,r_{l+1},...r_{l+k},...r_{l+K-1}\}$ ，反馈值列表。其中 $r_{l+k}$ 代表对应推荐项 $a_{l+k}$ 的反馈值。

输入：

用户的历史会话 $B$
推荐列表的长度 $K$

输出：

在线数据存储 $M$

流程：

循环取出 $B$ 中的每一个会话 $s e s s i o n = 1, . . ., B$ ：
$\qquad$ 观测先前会话的初始状态 $s_0=\{s_0^1,s_0^2,...,s_0^N\}$
$\qquad$ 循环按时间顺序观测 $K$ 个项目， $K$ 是 $l$ 上的滑动窗口：
$\qquad\qquad$ 观测当前状态列表 $s=\{s^1,s^2,...,s^N\}$
$\qquad\qquad$ 观测当前的项目 $a=\{a_l,a_{l+1},...,a_{l+K-1}\}$
$\qquad\qquad$ 观测当前项目的反馈值 $r=\{r_l,r_{l+1},...,r_{l+K-1}\}$
$\qquad\qquad$ 将元组 $((s,a)\to r)$ 存储在 $M$ 中
$\qquad\qquad$ 循环获取每一个推荐项 $a_{l+k}$ 和对应反馈项 $r_{l+k}$ $， k = 1,,, . K - 1$ :
$\qquad\qquad\qquad$ 若 $r_{l+k}>0$ ，即用户对推荐项 $a_{l+k}$ 产生了行为：
$\qquad\qquad\qquad\qquad$ 移除 $s$ 的第一个元素
$\qquad\qquad\qquad\qquad$ 向 $s$ 的末尾追加项目 $a_{l+k}$
返回 $M$

3.2. 生成模拟数据

（1）直接映射法

在线环境下，RA可以直接从用户与推荐列表的交互中获取反馈值，但是在模拟数据中如何获取反馈值呢？一个简单办法是通过计算模拟生成的“状态-动作对”与存储 $M$ 中已存在的“状态-动作对”的相似度来选取的。

为了计算模拟生成的 $s_t,a_t)$ 对与 $M$ 中的每对 $s_i,a_i)$ 对的相似性 $\text{模拟生成的“状态-动作对”：}p_t(s_t,a_t)$ $\text{在线存储的“状态-动作对”：}m_i((s_i,a_i)\to r_i)$ 采用余弦相似度对 $p_t$ 和 $m_i$ 的相似度进行计算： $Cosine(p_t,m_i)=\alpha\frac{s_ts_i^T}{\Vert s_t\Vert\Vert s_i \Vert}+(1-\alpha)\frac{a_ta_i^T}{\Vert a_t\Vert\Vert a_i \Vert}$ 前一项评估状态相似度，后一项评估动作相似度，参数 $\alpha$ 控制两个相似度的权重。 $p_t$ 与 $m_i$ 越相似， $p_t$ 能获得对应反馈值 $r_t$ 的概率越高，可以用以下公式将 $p_t$ 映射到 $r_i$ ： $P(p_t\to r_i)=\frac{Cosine(p_t,m_i)}{\sum_{m_j\in M}Cosine(p_t,m_j)}$

要注意的是，这里的映射概率并不是独立的，而是合并的，也就是说，计算出所有的 $P=\{P(p_1\to r_1),...,P(p_t\to r_i),...\}$ 后，其和 $\sum P=1$ （想象一个饼状图），总有一个 $r_i$ 会被选到， $P(p_t\to r_i)$ 越大越容易被选到。

直接映射法依概率选取反馈值后，得到的是与推荐列表 $a_t$ 对应的反馈值向量 $r_i$ （记录了每个推荐项的反馈值）。

（2）分组映射法

为了降低 $P(p_t\to r_i)$ 的计算复杂度，论文不直接把 $p_t$ 映射到单个 $m_i$ 的反馈值，而是映射到反馈值的分组 $\mathcal{U}_x$ 。

这样做的好处显而易见，例如现在有有一个大小为2的推荐列表，用户跳过/点击/订购推荐项的奖励分别为0、1、5，如果每次都向具体的反馈值映射，则映射的总数为 $2 M$ ，而向分组映射时映射的总数为 $9$ ， $9 < < 2 M$ ： $\mathcal{U}=\{\mathcal{U}_1,\mathcal{U}_2,...\mathcal{U}_x,...\mathcal{U}_9\}=\{(0,0),(1,0),(0,1),(1,1),(5,0),(0,5),(1,5),(5,1),(5,5)\}$

将 $p_t$ 映射到 $\mathcal{U}_x$ 的计算公式为： $P(p_t\to \mathcal{U}_x)=\frac{\sum_{r_i= \mathcal{U}_x}Cosine(p_t,m_i)}{\sum_{m_j\in M}Cosine(p_t,m_j)}=\frac{\mathcal{N}_x(\alpha\frac{s_t{s^-_x}^T}{\Vert s_t\Vert}+(1-\alpha)\frac{a_t{a^-_x}^T}{\Vert a_t\Vert})}{\sum_{\mathcal{U}_y\in\mathcal{U}}\mathcal{N}_y(\alpha\frac{s_t{s^-_y}^T}{\Vert s_t\Vert}+(1-\alpha)\frac{a_t{a^-_y}^T}{\Vert a_t\Vert})}$

其中， $\mathcal{N}_x$ 是指具有 $r=\mathcal{U}_x$ 的用户的历史浏览历史记录组的大小； $s^-_x$ 和 $a^-_x$ 是 $r=\mathcal{U}_x$ 的平均状态向量和平均动作向量： $s^-_x=\frac{1}{\mathcal{N}_x}\sum_{r_i=\mathcal{U}_x}\frac{s_i}{\Vert s_i\Vert},\quad a^-_x=\frac{1}{\mathcal{N}_x}\sum_{r_i=\mathcal{U}_x}\frac{a_i}{\Vert a_i\Vert}$ 在实际操作中， $\mathcal{N}_x$ 、 $s^-_x$ 和 $a^-_x$ 每1000个episodes更新一次。

之后，依概率 $P(p_t\to \mathcal{U}_x)$ 就可以得到一个反馈值向量 $\mathcal{U}_x$ （记录了每个推荐项的反馈值）。

（3）推荐列表的整体反馈值
为了把反馈值向量 $a_i$ 或 $\mathcal{U}_x$ 转换为对推荐列表 $a_t$ 的反馈值 $r_t$ ，可以用下列公式进行计算： $r_t=\sum_{k=1}^{K}\Gamma^{k-1}\mathcal{U}_x^k$ 其中， $k$ 是推荐列表中推荐项的顺序； $\Gamma\in(0,1]$ 。显然，由于 $\Gamma$ 的存在，推荐列表前部的推荐项对整体的反馈值会有更高的贡献，这使得RA更容易在推荐列表的前部向用户推荐高反馈值的推荐项。

到此，由 $p_t(s_t,a_t)\to r_t$ 就可以组成一条模拟数据 $s_t,a_t,r_t)$ 了。

4. Actor-Critic框架

在这里插入图片描述

4.1. Actor网络

说明：
Actor网络是一个列表型的项推荐程序，它括两个部分，即：

生成特定状态的评分函数参数
评分函数用于根据用户当前的特定状态（有过动作的推荐项记录，例如点击、购买等）对推荐项进行评分，Actor网络用于生成评分函数的参数。
生成推荐动作。

算法2 列表型项推荐算法

Actor框架包括

符号解释：

$f_{\theta^\pi}$ ： $f_{\theta^\pi}:s_t\to w_t$ ，即Actor，是一个神经网络，用于根据用户当前的特定状态 $s_t$ 生成评分函数的权重参数 $w_t$ 向量( $w_t$ 就是 $s_t$ 中每一个元素的Q值向量)； $\theta^\pi$ 是神经网络的参数；
$socre_i$ ： $socre_i=w_t^ke_i^T$ ，项 $i$ 的评分。 $w_t^k$ 是指状态 $s_t$ 时推荐项 $i$ 对应的第 $k$ 个权重参数（由 $f_{\theta^\pi}$ 生成）； $e_i$ 是项空间 $I$ 中第 $i$ 个推荐项的嵌入值（ $e_i$ 的维度与 $s_t$ 相同）； $T$ 是转置的意思。

输入：

当前的特定状态 $s_t$
项空间（动作空间） $I$
推荐列表的长度 $K$

输出：

特定状态 $s_t$ 时的推荐列表 $a_t$

流程：

由 $f_{\theta^\pi}$ 根据 $s_t$ 生成权重向量列表 $w_t=\{w_t^1,...,w_t^K\}$
循环 $k = 1, . . ., K$ ：
$\qquad$ 对 $I$ 中的所有项 $i$ 进行评分
$\qquad$ 选择评分 $socre_i$ 最高的项目 $a_l^k$
$\qquad$ 将项目 $a_l^k$ 追加到推荐列表 $a_t$ 中
$\qquad$ 从 $I$ 中去除 $a_l^k$
返回推荐列表 $a_t$

4.2. Critic网络

Critic网络用于学习 $Q(s_t,a_t)$ ，该Q值用于判断Actor产生的动作 $a_t$ 是否与当前状态 $s_t$ 相匹配。然后，根据Q值更新Actor的参数，改进Actor以生成更佳的动作。

由于Actor网络已经提供了确定性的 $a_t$ ，因此Critic网络计算Q值的公式为： $Q(s_t,a_t)=\mathbb{E}_{s_{t+1}}[r_t+\gamma Q(s_{t+1},a_{t+1})|s_t,a_t]$ 即Q值为持续利用Actor生成 $a_t$ 所获得的 $r_t$ 的折扣期望值，该Q值将用于 $f_{\theta^\pi}$ 的参数更新。

在论文中，用神经网络来拟合Q值(DQN)，即有： $Q(s_t,a_t)\approx Q(s_t,a_t;\theta^\mu)==\mathbb{E}_{s_{t+1}}[r_t+\gamma Q(s_{t+1},a_{t+1};\theta^\mu)|s_t,a_t]$ 其中， $\theta^\mu$ 是DQN神经网络的参数。DQN的损失函数定义如下： $L(\theta^\mu)=\mathbb{E}_{s_t,a_t,r_t,s_{t+1}}[(y_t-Q(s_t,a_t;\theta^\mu)^2)]$ 在实践中使用随机梯度下降法来优化损失函数 $L(\theta^\mu)$ ，在优化损失函数的时候，参数 $\theta^\mu$ 会被更新。

在 $L(\theta^\mu)$ 中， $y_t$ 是每次迭代时的目标价值（目标Critic网络的Q值）： $y_t=\mathbb{E}_{s_{t+1}}[r_t+\gamma Q'(s_{t+1},a_{t+1};{\theta^\mu}')|s_t,a_t]$ 之所以 $y_t$ 选用目标网络进行计算，是因为 $Q^{'}$ 网络由 $Q$ 网络更新而来，在计算损失函数时参数 $\theta^\mu$ 的差异不至于过大，可以让 $Q$ 网络的更新更加稳定，使得收敛方向更加确定。

6. 训练过程

6.1. 整体流程

算法3. 使用DDPG算法对所提出的DEV框架进行参数训练的过程

在这里插入图片描述

符号解释：

$M$ ： $M=\{m_1,m_2,...,m_i,...\}$ ，存储。来存储用户的历史浏览历史，每一个 $m_i$ 都代表了一个交互元组 $((s_i,a_i)\to r_i)$ ；
$s_0$ ： $s_0=\{s_0^1,s_0^2,...,s_0^N\}$ ，用户过去的会话记录，即用户在过去会话中曾经浏览、点击、购买过的物品，可能为空（如果是新用户），也可能已经有记录（之前会话留下的记录）。简单来说，当前状态 $s$ 之前的所有状态全部可以视作初始状态 $s_0$ ；
$T$ ：会话内所经历的时间步；
$K$ ：推荐列表的长度；
$N$ ：是minibatch中数据量的大小，也指时间步的数量，也指训练时episode的数量；
$\tau$ ： $\tau=0.001$ ，是更新目标Actor和Critic网络时平衡之前网络参数与更新参数之间的权重

初始化：

随机初始化actor网络 $f_{\theta^\pi}$ 和critic网络 $Q(s,a|\theta^\mu)$ 的权重；
使用 $f_{\theta^\pi}$ 和 $Q(s,a|\theta^\mu)$ 的权值初始化目标网络 $f^{'}$ 和 $Q^{'}$ ；
初始化回放池 $D$ 的容量

流程：

循环获取 $M$ 中的每一个会话， $s e s s i o n = 1, M$ ：
$\qquad$ 重置项空间 $I$
$\qquad$ 从先前的会话中初始化初始状态 $s_0$
$\qquad$ 循环获取会话中的每一个时间步 $t = 1, T$ :
$\qquad\qquad$ 阶段1：状态转移生成阶段
$\qquad\qquad$ 根据算法二选择动作（推荐列表） $a_t=\{a_t^1,...,a_t^K\}$
$\qquad\qquad$ 向用户展示推荐列表 $a_t$ ，并且获得其中每一个推荐项的反馈值，组成反馈列表 ${r_t^1,...,r_t^K\}$ 。该反馈值列表只用于选取 $a_l^k$ ，不是推荐列表 $a_t$ 的反馈值。
$\qquad\qquad$ 初始化下一个状态的值 $s_{t+1}=s_t$
$\qquad\qquad$ 循环获取每一个推荐项 $a_t^k$ 和对应反馈项 $r_t^k$ ，k=1,K：
$\qquad\qquad\qquad$ 若反馈值 $r_t^k>0$ ，即用户对推荐项 $a_t^k$ 产生了行为
$\qquad\qquad\qquad\qquad$ 在 $s_{t+1}$ 中追加 $a_t^k$
$\qquad\qquad\qquad\qquad$ 移除 $s_{t+1}$ 的首位元素
$\qquad\qquad$ 根据 $s_t$ 和 $a_t$ 计算推荐列表的反馈值 $r_t$
$\qquad\qquad$ 在 $D$ 中存储状态转移 $s_t,a_t,r_t,s_{t+1})$
$\qquad\qquad$ 转移到下一个状态 $s_t=s_{t+1}$
$\qquad\qquad$ 阶段2：参数更新阶段
$\qquad\qquad$ 从 $D$ 中采样含有 $N$ 个转移 $(s, a, r, s^{'})$ 的minibatch（经验回放）
$\qquad\qquad$ 根据算法2通过目标Actor网络在状态 $s^{'}$ 时生成推荐列表 $a^{'}$
$\qquad\qquad$ 设定目标价值 $y=r+\gamma Q'(s',a';{\theta^\mu}')$
$\qquad\qquad$ 用梯度下降法最小化损失 $(y-Q(s,a;{\theta^\mu}))$ 以更新Critic网络： $\nabla_{\theta^\mu}L(\theta^\mu)\approx \frac{1}{N}[(y-Q(s,a;{\theta^\mu}))\nabla_{\theta^\mu}Q(s,a;{\theta^\mu})]$
$\qquad\qquad$ 用采样策略梯度法更新Actor网络： $\nabla_{\theta^\pi}f_{\theta^\pi}\approx \frac{1}{N}\sum_{i}\nabla_{a}Q(s,a;{\theta^\mu})\nabla_{\theta^\pi}f_{\theta^\pi}(s)$
$\qquad\qquad$ 更新目标Critic网络： ${\theta^\mu}'=\tau {\theta^\mu}+(1-\tau){\theta^\mu}'$
$\qquad\qquad$ 更新目标Actor网络： ${\theta^\pi}'=\tau {\theta^\pi}+(1-\tau){\theta^\pi}'$

在训练完成之后，RA就可以得到训练好的参数，即 $\theta^\mu$ 和 $\theta^\pi$ ，之后就可以在模拟环境中进行模型测试了。模型测试的方法也是算法3，即参数在测试阶段也可以被不断更新，与训练阶段的主要区别是测试阶段会在每次获取会话之前重置 $\theta^\mu$ 和 $\theta^\pi$ ，以便在每个推荐阶段之间进行公平比较。

6.2. 对Actor网络更新的说明

采用策略梯度法更新Actor网络的思路是 $Q(s,a;{\theta^\mu})$ 中输入的 $a$ 与 $f_{\theta^\pi}(s)$ (经评分后)输出的是一致的， $Q(s,a;{\theta^\mu})$ 中输入的 $s$ 与 $f_{\theta^\pi}(s)$ 的输入 $s$ 是一致的，因此有 $f_{\theta^\pi}(s)$ 的梯度为： $\nabla f_{\theta^\pi}(s)=\sum_{i}\nabla_{a}Q(s,a;{\theta^\mu})f_{\theta^\pi}(s)$ 其中 $i$ 代表一个时间步的 $(s, a)$ 。再进一步求参数 $\theta^\pi$ 的梯度得： $\nabla_{\theta^\pi}f_{\theta^\pi}\propto\sum_{i}\nabla_{a}Q(s,a;{\theta^\mu})\nabla_{\theta^\pi}f_{\theta^\pi}(s)$ 再对 $N$ 个episode的梯度求平均得： $\nabla_{\theta^\pi}f_{\theta^\pi}\approx \frac{1}{N}\sum_{i}\nabla_{a}Q(s,a;{\theta^\mu})\nabla_{\theta^\pi}f_{\theta^\pi}(s)$