机器人操作规划——Deep Visual Foresight for Planning Robot Motion(2017 ICRA)

文章研究了一种无需相机标定或物理仿真的model-basedRL方法,通过预测action对图像的影响进行自监督学习。利用大量push任务数据集,训练卷积LSTM网络预测物体运动。这种方法用于视觉MPC,指定像素目标进行规划,但受限于物体遮挡和3D操作。实验表明,尽管存在挑战,该方法在平面操作任务中表现有效。
摘要由CSDN通过智能技术生成

1 简介

model-based RL方法,预测Action对图像的变化,以push任务进行研究。

采用完全自监督的学习方式,不需要相机标定、3D模型、深度图像和物理仿真。

在这里插入图片描述

2 数据集

采用几百个物体10个7dof机械臂采集了包括5万个push attempts的数据集。

每个push有以下步骤:

  • 在bin的边缘上随机选择一个起始gripper位姿
  • 以5Hz频率循环迭代以下步骤episodes次:
    • 随机选择一个新的target gripper pose:末端的3D坐标和pitch、yaw旋转(roll固定)
    • 移动gripper到该pose
    • 机器人以10Hz记录当前gripper pose、target gripper pose、RGB图像

3 预测网络

预测模型输入:当前和上一个的图像、当前和上一个的gripper pose、未来的action序列(序列长度是超参数)

  • 使用图像和gripper pose对的原因是,允许模型估计物体的速度。

预测模型输出:在当前状态施加action后的图像(网络一次输出一张图像,将该输出图像再作为输入,循环输出多张图像)。

网络架构:以卷积LSTM为核心,masks指定了物体像素的当前位置,归一化卷积核mc提供了物体运动的相对位置权重,以此计算输出图像中每个像素的值与输入图像同位置像素周围边长为2K的区域内所有像素的关系权重flow map,基于该map与输入图像得到输出图像。(如果物体被其他物体压住,像素目标位置丢失,方法效果会如何?)

  • 网络详细介绍参考作者另一篇论文:Unsupervised Learning for Physical Interaction through Video Prediction

在这里插入图片描述

4 基于预测模型的视觉MPC

MPC:Model-Predictive Control

包括三部分:如何通过图像指定任务goal、验证action、使用MPC进行规划和重规划。

4.1 使用像素运动指定goals

通过指定图像中物体上的起始像素,及该像素的goal位置。

只能用于push这种平面操作任务。

4.2 使用隐式像素对流验证action

给定图像中一个起始像素点位置和一个目标像素点位置,计算经过H步action之后,网络预测的起始像素点运动后的位置是否与目标像素位置一致,如果一致,成功率为1,否则为0。

对于多个像素点,分别计算成功率并求和。

还需要采样Action序列,下一节介绍。

4.3 基于采样和深度模型的MPC

采用cross-entropy方法,在每个时间步t的短期horizon内进行优化。使用一个光流求解器来跟踪像素点的变化。

详细算法看论文:

在这里插入图片描述

5 实验

构建实验来回答两个问题:

  • 能否使用基于action的预测模型来操作训练中未见过的新物体?
  • 仅从原始像素上训练的模型能否对实际物体产生有意义的推理?

测试时, H = 3 H=3 H=3 T = 15 T=15 T=15,且在 H H H时间步内action保持不变,即每次采样的action序列其实是相同的H个action。

5.1 量化对比

对比了三个baselines:

  • 均匀采样action,随机移动
  • 移动gripper到目标像素位置(需要手眼标定)
  • 从当前像素位置移动到目标像素位置,随着像素位置变化进行重新规划,使用光流求解器跟踪像素位置变化(需要手眼标定)

结果如下图,没感觉本文方法比baseline3好多少

在这里插入图片描述

5.2 定性结果

测试方法能否进行复杂操作,需要推理物体旋转和重心。

该方法在机械臂挡住物体时会失败。

6 讨论和未来计划

作者任务提高预测模型的精度能有效提高操作任务的复杂程度,本人不敢苟同,不管预测精度高不高,基于图像的方法在本质上就不能用于3D复杂操作和克服遮挡情况。

7 方法缺陷

  1. 由于采用预测像素位置变化的方式操作物体,因此必须要求物体不能被遮挡(部分遮挡或完全遮挡),而且无法预测物体的3D运动。
  2. 通过采样和交叉熵的方式获取最优的Action序列,使得该方法无法处理无法的操作任务,因为那将使采样数量呈指数上升。
  3. 以图像为单一媒介,无法进行精确的物体操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值