Offline RL: ResAct: Reinforcing Long-term Engagement in Sequential Recommendation ....

收到求救信号

于 2024-04-07 22:51:38 发布

阅读量768

点赞数 11

分类专栏：强化学习推荐系统离线强化学习文章标签：人工智能

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/137479159

版权

强化学习同时被 3 个专栏收录

84 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

推荐系统

1 篇文章 0 订阅

订阅专栏

ICLR 2023
paper

Intro

文章研究顺序推荐系统中的强化学习问题，提出无需在线交互的离线方法ResAct。ResAct的工作流程包括三个阶段：重建、预测和选择。在重建阶段，通过监督学习重建在线服务策略。在预测阶段，对于每个重建的行为估计器，ResAct预测残差并将其应用到重建的行为上。在选择阶段，从所有改进的行为中选择最佳行为作为最终输出。

此外，ResAct还设计了两个信息论正则化器来提高状态表示的特征表达性和简洁性，以确保学习到的特征既包含关于长期参与度的充分信息，又能过滤掉冗余信息。

Method

在这里插入图片描述
在线行为重构：ResAct采用条件VAE对行为进行预测
$L_{\theta_e,\theta_d}^{Rec}=\mathbb{E}_{s,a_{on},c}\left[(D(a|s,c;\theta_d)-a_{on})^2+KL(\mathcal{C}(s,a_{on};\theta_e)||\mathcal{N}(0,1))\right]$
其中 $\mathcal{C}$ 为Encoder得到的latent vector,

预测行为残差：由图可知，中间结构预测残差项，与重构的行为 $\tilde{a}_{on}$ 相加得到最终策略： $\tilde{a}^{i}=\tilde{a}_{on}^{i}+\Delta(s,\tilde{a}_{on}^{i})$ 。对high-level的request编码得到 $z_h$ 以及low-level的session编码得到 $z_l$ ，二者concat后联合 $\tilde{a}_{on}$ ，输入到: $f(\Delta|s,\tilde{a}_{on};\theta_{f}), \theta_{f}=\{\theta_{h},\theta_{l},\theta_{a}\}$ 到得到残差项。
$z_h=f_h(s_h;\theta_h),z_l=f_l(s_l;\theta_l);z=Concat(z_h,z_l);\Delta=f_a(z,a;\theta_a)$
最终策略可以表示为:
$\hat{\pi}(a|s,c)=D(\tilde{a}_{on}|s,c;\theta_{d})+f(\Delta|s,\tilde{a}_{on};\theta_{f})$
对于策略网络的参数则是采用DPG的RL进行优化：
$\begin{aligned}\nabla_{\theta_f}\mathcal{J}(\hat{\pi})&=\mathbb{E}_{s,c}\left[\nabla_aQ^{\hat{\pi}}(s,a)|_{a=\hat{\pi}(a|s,c)}\nabla_{\theta_f}f(\Delta|s,a;\theta_f)|_{a=D(a|s,c;\theta_d)}\right].\\\nabla_{\theta_d}\mathcal{J}(\hat{\pi})&=\mathbb{E}_{s,c}\left[\nabla_aQ^{\hat{\pi}}(s,a)|_{a=\hat{\pi}(a|s,c)}\nabla_{\theta_d}D(a|s,c;\theta_d)\right].\end{aligned}$
价值函数则是采用TD3,最小化均方bellman损失函数优化：
$\begin{aligned}L_{\theta_{qj}}^{TD}&=\mathbb{E}_{(s_t,a_t,r_t,s_{t+1})}\left[(Q_j(s_t,a_t;\theta_{qj})-y)^2\right],j=\{1,2\};\\y&=r_t+\gamma\min\left[Q_1^{'}(s_{t+1},\hat{\pi}^{'}(a_{t+1}|s_{t+1});\theta_{q_1}^{'}),Q_2^{'}(s_{t+1},\hat{\pi}^{'}(a_{t+1}|s_{t+1});\theta_{q_2}^{'})\right]\end{aligned}$

通过梯度上升对 $\theta_f$ 进行更新：
$\theta_f\leftarrow\theta_f+\nabla_{\theta_f}\mathcal{J}(\hat{\pi}),\theta_f=\{\theta_h,\theta_l,\theta_a\}$
对于 $\theta_d$ 则需要再次使用 $L_{\theta_e,\theta_d}^{Rec}$ :
$\theta_d\leftarrow\theta_d+\nabla_{\theta_d}\mathcal{J}(\hat{\pi})-\nabla_{\theta_d}L_{\theta_e,\theta_d}^{Rec}.$

除此外，为了实现更好的状态特征提取，ResAct额外对于High-level特征提取器基于信息论的角度提出两个正则化项。
Expressiveness:要求提取的特征包含尽可能多的关于长期参与奖励的信息，即最大化 $z_h$ 与 $r (s, a)$ 的互信息
$\begin{aligned} I_{\theta_{h}}(z_{h};r)& \geq\int\int p_{\theta_h}(z_h)p(r|z_h)\operatorname{log}\frac{o(r|z_h;\theta_o)}{p\left(r\right)}\mathrm{d}z_h\mathrm{d}r; \\ &=\int\int p_{\theta_h}(z_h)p(r|z_h)\log o(r|z_h;\theta_o)\mathrm{d}z_h\mathrm{d}r+H(r), \end{aligned}$
其中 $H(r)=-\int p(r)\operatorname{log}p(r)\mathrm{d}r$ 。因此，原问题转化为最小化
$L_{\theta_h,\theta_o}^{Exp}=\mathbb{E}_{s,z_h\sim p_{\theta_h}(z_h|s_h)}\left[\mathcal{H}(p(r|s)||o(r|z_h;\theta_o))\right],$

Conciseness：希望 $z_h$ 足够简洁，可以从 $s_h$ 中过滤掉冗余信息…该目标表示为最小化互信息 $I_{\theta_h}(z_h;s_h)=\int\int p(s_h)p_{\theta_h}(z_h|s_h)\log\frac{p_{\theta_h}(z_h|s_h)}{p_{\theta_h}(z_h)}\mathrm{d}s_h\mathrm{d}z_h$ , 由于 $p_{\theta_{h}}(z_{h})$ 无法计算，因此选择标准正态分布作为其变分近似, 则该互信息存在上界：
$I_{\theta_h}(z_h;s_h)\leq\int\int p(s_h)p_{\theta_h}(z_h|s_h)\log\frac{p_{\theta_h}(z_h|s_h)}{m(z_h)}\mathrm{d}s_h\mathrm{d}z_h.$
最小化该上界:
$\begin{aligned} L_{\theta_{h}}^{Con}& =\int p(s_{h})\left[\int p_{\theta_{h}}(z_{h}|s_{h})\log\frac{p_{\theta_{h}}(z_{h}|s_{h})}{m(z_{h})}\mathrm{d}z_{h}\right]\mathrm{d}s_{h}; \\ &=\mathbb{E}_s\left[KL(p_{\theta_h}(z_h|s_h)||m(z_h))\right]. \end{aligned}$

伪代码

在这里插入图片描述而在执行策略时，通过采样的方法近似 $\hat{\pi}(a|s)$
$\begin{gathered}\hat{\pi}(a|s)=\hat{\pi}(a|s,c^*);\\c^*=\arg\max_cQ_1(s,\hat{\pi}(a|s,c);\theta_{q_1}),c\in\{c^i\sim\mathcal{N}(0,1)\}_{i=0}^n\end{gathered}$