Offline RL : Efficient Planning in a Compact Latent Action Space

最新推荐文章于 2024-07-25 16:05:31 发布

收到求救信号

最新推荐文章于 2024-07-25 16:05:31 发布

阅读量885

点赞数 26

分类专栏：强化学习无监督RL 离线强化学习文章标签：机器学习

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/137600926

版权

强化学习同时被 3 个专栏收录

84 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 0 订阅

订阅专栏

无监督RL

8 篇文章 0 订阅

订阅专栏

ICLR 2023
paper

Intro

采用Transformer架构的Planning方法对马尔可夫序列重构,(et. TT)在面对高维状态动作空间，容易面对计算复杂度高的问题。本文提出TAP算法，基于Transformer的VQ-VAE，利用提取的状态动作在隐空间的低微特征进行Planning，然后使用latent codes经过decoder得到重构序列，在Offline下取较好的结果。

Method

在这里插入图片描述

VQ-VAE

训练VQ-VAE使用离线数据 $\tau=(\boldsymbol{s}_1,\boldsymbol{a}_1,r_1,R_1,\boldsymbol{s}_2,\boldsymbol{a}_2,r_2,R_2,\ldots,\boldsymbol{s}_T,\boldsymbol{a}_T,r_T,R_T)$ 。以上图为例，经过encoder得到T个特征(图中T=9)，然后步长为L的一维卷积以及最大池化得到向量 $(\bar{x}_1,\bar{x}_2,\bar{x}_3)$ 。在由最近邻找到对应的codebook中的 $e_i$ 作为latent code。
$\boldsymbol{z}_i=\boldsymbol{e}_k,\mathrm{where~}k=\mathrm{argmin}_j||\boldsymbol{x}_i-\boldsymbol{e}_j||_2$
解码阶段，首先将latentcode扩展，与输入等维度。concat初始状态，经过decoder得到重构的序列。损失函数则是由原序列与重构序列的均方误差。除此外还最小化特征向量、latent code分别与codebook的距离: $||\boldsymbol{x}_i-\boldsymbol{e}_k||_2\mathrm{~and~}||\boldsymbol{z}_i-\boldsymbol{e}_k||_2$

得到latent code后，还需要训练其先验分布用于后续的Planning过程。TAP采用Transformer架构的自回归模型 $p(\boldsymbol{z}_{t}|\boldsymbol{z}_{<t},\boldsymbol{s}_{1})=p(\boldsymbol{z}_{t}|\boldsymbol{s}_{1},\boldsymbol{z}_{1},\boldsymbol{z}_{2},...,\boldsymbol{z}_{t-1})$ 构建更加紧凑的latent code

Planning

使用先验模型，生成当前state在隐空间中的latent code序列，再用decoder进行解码就得到预测的轨迹。对每条生成轨迹有如下评价函数
$g(\boldsymbol{s}_1,\boldsymbol{z}_1,\boldsymbol{z}_2,...,\boldsymbol{z}_M)=\sum_t\gamma^t\hat{r}_t+\gamma^T\hat{R}_T+\alpha\ln\left(\min(p(\boldsymbol{z}_1,\boldsymbol{z}_2,...,\boldsymbol{z}_M|\boldsymbol{s}_1),\beta^M)\right)$
前两项衡量轨迹累计折扣奖励，后一项则是惩罚项，如果轨迹有概率大于阈值则相信累计奖励。而若小于阈值，则后项由于权重 $\alpha$ 取值为大于折扣回报的最大值，使得此时后项对评分的主导远大于累计奖励，即选择高概率的轨迹。

Beam Serach

基于初始状态以及先验模型，采样生成latent code z采用Beam search
在这里插入图片描述
可以看出，首先利用先验模型采样得到n个 $z_1$ ，然后对每个 $z_1$ 由先验模型得到概率最高的排序为前E个的 $z_2$ 拼接，然后由decoder解码并根据评价函数得到轨迹分数，选取Top-B的序列的 $z_1, z_2$ , 重复上述过程选取最大评分的轨迹。

总结

对于高维复杂环境，通过encoder到低维度隐空间进行推理学习好的特征表示，在decoder生成是一个好的框架。对于下游任务，就可以直接采用学习好的特征以及decoder实现zero-shot。这是一个不错的思路。后续ICLR2024有个工作使用在隐空间进行Diffusion：《Efficient Planning with Latent Diffusion》

收到求救信号

关注

26
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
Offline RL : Efficient Planning in a Compact Latent Action Space

对于高维复杂环境，通过encoder到低维度隐空间进行推理学习好的特征表示，在decoder生成是一个好的框架。对于下游任务，就可以直接采用学习好的特征以及decoder实现zero-shot。这是一个不错的思路。后续ICLR2024有个工作使用在隐空间进行Diffusion：《Efficient Planning with Latent Diffusion》
复制链接

扫一扫

专栏目录