机器人强化学习——IRIS: Implicit Reinforcement without Interaction at Scale for Learning Control。。（ICRA 2020）

最新推荐文章于 2024-07-25 17:35:29 发布

千羽QY

最新推荐文章于 2024-07-25 17:35:29 发布

阅读量426

点赞数

分类专栏：机器人-强化学习文章标签：机器人机器学习人工智能强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40081208/article/details/127331619

版权

机器人-强化学习专栏收录该内容

20 篇文章 12 订阅

订阅专栏

1 简介

论文标题：IRIS: Implicit Reinforcement without Interaction at Scale for Learning Control from Offline Robot Manipulation Data

算法核心：将策略木比分解为两步：

（1）低维目标导向的模仿学习

（2）高维目标选择

低维控制器从演示数据中学习短期序列。高维目标选择机制为一个生成模型，生成目标和对应的值函数。

给定当前观测，高维控制器选择一个新目标，低维控制器走 $T$ 步来达到该目标；该过程重复直到任务结束。

本文主要解决的问题是：如何仅从大尺度的离线数据中学习policy，不与环境进行交互。

对一些问题的解决办法：

1.1 处理次优的演示数据

次优：比如调整了好几次末端位置才成功抓取，把易拉罐推倒了再抓取、放置物体的时候被容器卡了一下等。

由高维控制器处理次优，考虑次优演示的同时，使学习的value function能选择能使任务进步最大的目标。

1.2 处理多样的演示数据

多样：完成任务的轨迹不一样，如从上往下抓取易拉罐，或先推倒再从侧面抓取。

低维目标导向的控制器不关心数据多样性，而是重现数据集中的局部行为序列，即从一个状态到另一个。

高维控制器通过采样目标状态的方式，使多种解决任务的轨迹都可达。

1.3 从off-policy数据学习

低维和高维控制器的学习都是在训练数据的分布上，学习值函数时，学习Q-function。

1.4 问题

（1）测试时，高维控制器如何生成子目标？

2 方法

2.1 低维控制器

低维控制器：RNN，给定当前观测和目标观测，在每个时间步输出一个action。

在数据集中采样T步的轨迹，最后一个状态作为目标观测，使用行为克隆的方式训练RNN，MSE损失。

2.2 高维控制器

高维控制器：两部分

（1）条件变分自动编码器cVAE对当前状态的T步之后的目标状态进行建模，用来采样目标状态候选；

条件变分自编码器：

编码器：输入当前观测和目标观测，输出高斯分布的均值和方差；target为正态分布，使用KL散度进行优化，参考VAE的损失。

解码器：输入当前观测 和 在编码器输出的高斯分布中采样的一个数，输出目标观测；使用MSE进行优化。

测试的时候怎么用：

在正态分布随机采样数据，与当前观测一起送入网络，输出目标观测。

（2）Q function，用来选择最优的目标状态。

基于**Batch Constrained Q-Learning (BCQ)**算法，使用随机采样的轨迹片段进行训练的话，不会被次优数据影响吗？

训练一个cVAE来为轨迹片段的目标状态 $s_t$ 生成多个action $a_t$ ，从其中选择max Q(s_t, a_t)和倒数第二步的reward来作为优化 $Q(s_{t+T-1},a_{t+T-1})$ 的target。

注意，优化BCQ的状态-动作对是轨迹片段的倒数第二个状态和对应的动作，target是和倒数第二步的reward和子目标状态的Q。

reward：下一时刻的状态与目标状态相同，则reward=1；否则reward=0。

测试时，Q-function输入什么？

action定义？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器人强化学习——IRIS: Implicit Reinforcement without Interaction at Scale for Learning Control。。（ICRA 2020）

算法核心：将策略木比分解为两步：（1）低维目标导向的模仿学习（2）高维目标选择低维控制器从演示数据中学习短期序列。高维目标选择机制为一个生成模型，生成目标和对应的值函数。给定当前观测，高维控制器选择一个新目标，低维控制器走TTT步来达到该目标；该过程重复直到任务结束。本文主要解决的问题是：如何仅从大尺度的离线数据中学习policy，不与环境进行交互。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。