机器人强化学习——Transferring End-to-End Visuomotor Control from Simulation to RealWorld (CoRL 2017)

6.1 简介

面向场景端到端的视觉驱动(图像->力矩或扭矩,Visuomotor)多阶段任务(multi-stage task)

任务:定位方块物体、reach、grasp、定位篮子、把方块放到篮子里

方法主要包括两步:(1)在仿真环境中计算并收集轨迹,即控制速度;(2)训练CNN,学习从图像到速度的映射,使用域随机化进行增强。

演示数据:由笛卡尔坐标系中的逆运动学求解计算得到,第一人称图像。

网络:输入图像和关节角,输出电机速度(通过PID使关节达到该速度)。辅助输出方块和机械手的位置时,网络性能会提升。

实验演示了在动态光照条件、有干扰物、物体移动 场景下的效果。

6.2 方法

1、如何实现多阶段任务?网络知道当前任务进度吗

论文里没有明确说这一点,凭推测是:LSTM网络输入连续四帧图像,根据图像变化学习当前任务进度

如:

(1)机械手空着时,网络当前任务目标为 把机械手移动至方块上方

(2)机械手连续四帧在运动,且当前帧中机械手位于方块上方时,网络当前任务目标为 闭合机械手

(3)方块位于机械手中时,网络当前任务目标为 把机械手移动至篮子上方

(4)机械手运动至篮子上方时,网络当前任务目标为 张开机械手

6.3 想法

6.3.1 本文问题

1、行为克隆无法处理没见过的场景,因此需要100万张图像;如果先使用行为克隆训练,再使用强化学习,可能需要的样本更少?

2、模型太固定,如果我想抓取一个圆形物体、放到另一个篮子里,需要重新训练网络;可以尝试把任务目标添加进网路的输入

6.3.2 想法

1、行为克隆+强化学习

2、把任务目标(如物体图像、图谱节点等)添加进网路的输入,使方法可以处理不同的物体

3、网络输入可以包含机械手的状态,类似QT-Opt;

4、可以借鉴网络输出关节速度域随机化方式LSTM学习任务状态和进度

6.4 论文原文笔记

pdf下载地址:https://download.csdn.net/download/qq_40081208/85788235
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值