6.1 简介
面向场景:端到端的视觉驱动(图像->力矩或扭矩,Visuomotor)、多阶段任务(multi-stage task)。
任务:定位方块物体、reach、grasp、定位篮子、把方块放到篮子里
方法主要包括两步:(1)在仿真环境中计算并收集轨迹,即控制速度;(2)训练CNN,学习从图像到速度的映射,使用域随机化进行增强。
演示数据:由笛卡尔坐标系中的逆运动学求解计算得到,第一人称图像。
网络:输入图像和关节角,输出电机速度(通过PID使关节达到该速度)。辅助输出方块和机械手的位置时,网络性能会提升。
实验演示了在动态光照条件、有干扰物、物体移动 场景下的效果。
6.2 方法
1、如何实现多阶段任务?网络知道当前任务进度吗?
论文里没有明确说这一点,凭推测是:LSTM网络输入连续四帧图像,根据图像变化学习当前任务进度;
如:
(1)机械手空着时,网络当前任务目标为 把机械手移动至方块上方
(2)机械手连续四帧在运动,且当前帧中机械手位于方块上方时,网络当前任务目标为 闭合机械手
(3)方块位于机械手中时,网络当前任务目标为 把机械手移动至篮子上方
(4)机械手运动至篮子上方时,网络当前任务目标为 张开机械手
6.3 想法
6.3.1 本文问题
1、行为克隆无法处理没见过的场景,因此需要100万张图像;如果先使用行为克隆训练,再使用强化学习,可能需要的样本更少?
2、模型太固定,如果我想抓取一个圆形物体、放到另一个篮子里,需要重新训练网络;可以尝试把任务目标添加进网路的输入
6.3.2 想法
1、行为克隆+强化学习
2、把任务目标(如物体图像、图谱节点等)添加进网路的输入,使方法可以处理不同的物体
3、网络输入可以包含机械手的状态,类似QT-Opt;
4、可以借鉴网络输出关节速度、域随机化方式、LSTM学习任务状态和进度。
6.4 论文原文笔记
pdf下载地址:https://download.csdn.net/download/qq_40081208/85788235








838

被折叠的 条评论
为什么被折叠?



