Offline RL:OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning

最新推荐文章于 2024-07-28 15:37:27 发布

收到求救信号

最新推荐文章于 2024-07-28 15:37:27 发布

阅读量961

点赞数 8

分类专栏：离线强化学习强化学习文章标签：人工智能

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/137339880

版权

强化学习同时被 2 个专栏收录

84 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

ICLR 2021
paper

Intro

本文的出发点是高效捕捉离线数据中种类繁多的行为。一种方法便是利用隐空间 $z$ 进行状态表征然后在其基础上扩展出新的行为 $\pi(a|s,z)$ 用于下游任务。

Method

在这里插入图片描述

OPAL算法分为三各阶段
1.第一阶段利用无奖励标签数据，通过最大化对数似然函数学习Primitive policy $\pi_\theta(a|s,z)$
$\begin{aligned}\min_{\theta,\phi,\omega}J(\theta,\phi,\omega)&=\hat{\mathbb{E}}_{\tau\sim\mathcal{D},z\sim q_\phi(z|\tau)}\left[-\sum_{t=0}^{c-1}\log\pi_\theta(a_t|s_t,z)\right]\\\text{s.t. }&\hat{\mathbb{E}}_{\tau\sim\mathcal{D}}[\mathrm{D}_\mathrm{KL}(q_\phi(z|\tau)||\rho_\omega(z|s_0))]\leq\epsilon_\mathrm{KL}\end{aligned}$
KL散度约束条件保证了轨迹状态和初始状态在隐空间一致性，避免过拟合。而在实践中，则是将约束条件作为惩罚项加入到原问题，将其转化为无约束问题。
2. 第二阶段则是学习应用于下游任务的 $\pi_\psi(z|s)$ 。这里采用 $N$ 个带奖励的轨迹数据集 $\mathcal{D}^{r}=\{\tau_{i}:=(s_{t}^i,a_{t}^i,r_{t}^i)_{t=0}^{c-1}\}_{i=1}^{N}$ ，利用第一阶段的 $q_\phi(z|\tau)$ ，对轨迹数据重构得到 $\mathcal{D}_{\mathrm{hi}}^{r}=\{(s_{0}^{i},z_{i},\sum_{t=0}^{c-1}\gamma^{t}r_{t}^{i},s_{c}^{i})\}_{i=1}^{N}$ ，基于该数据集采用任意offline RL算法(CQL)学习 $\pi_\psi(z|s)$ 。同时，基于数据集 $\mathcal{D}_{\mathrm{lo}}^{r}=\{((s_{t}^{i},a_{t}^{i})_{t=0}^{c-1},z_{i})\}_{i=1}^{N}$ 最大化对数似然函数，进一步优化primitive policy
$\min_{\theta}\hat{\mathbb{E}}_{(\tau,z)\sim\mathcal{D}_{\text{lo}}^r}\left[-\sum_{t=0}^{c-1}\log\pi_\theta(a_t|s_t,z)\right]$
3.第三阶段，便是利用 $\pi_\psi(z|s)$ 与 $\pi_\theta(a|s,z)$ 预测动作