[论文阅读] Learning ambidextrous robot grasping policies

本文介绍了一种名为Dex-Net4.0的双灵巧机器人抓取系统,通过合成数据和混合方法训练,能够在物理环境中高效清理多种新物体。研究强调了预期扭矩阻力在抓取策略中的重要性,并展示了在复杂场景下的抓取性能和鲁棒性。
摘要由CSDN通过智能技术生成

期刊:Science Robotics

时间:2019/01/30

团队:UC Berkeley

abstract&introduce

  • 通用拾取Universal picking (UP)或可靠的机器人抓取堆中各种新对象,是机器人的一大挑战
    • 传感器噪声和遮挡使物体在环境中的确切几何形状和位置模糊不清,不精确的驱动和校准会导致手臂定位不准确
    • UP的一种方法是创建一个三维物体模型的抓取数据库,使用从几何和物理中获得的抓取性能指标,随机抽样来建模不确定性
      • 需要感知系统将传感器数据注册到已知物体上,并且在实践中不能很好地推广到各种各样的新物体
    • 第二种方法使用机器学习来训练函数逼近器(如深度神经网络),使用经验成功和失败的大型训练数据集来预测图像中候选抓取成功的概率
      • 收集数据繁琐,由于校准或硬件的变化,容易出现不准确的情况
  • 本文探讨了“双灵巧 ambidextrous ”机器人抓取,其中使用了两个或多个异构抓手。我们提出了Dexterity Network (Dex-Net) 4.0,在 500 万个合成深度图像、抓取和从三维物体堆生成的奖励上训练parallel-jaw 和基于真空的吸盘夹持器的策略
  • 在一个有两个抓取器的物理机器人上,Dex Net 4.0策略以每小时300多次的平均抓取率,持续清除多达25个新物体的箱子,其可靠性大于95%
    • 该框架使用一个共同的指标来评估所有抓取:预期的扭矩阻力 expected wrench resistance
  • 为了降低数据收集的成本:我们探索了一种混合方法,使用几何和力学模型来生成合成训练数据集
    • 由于模型和现实世界系统之间的固有差异,在合成数据上训练的策略可能会降低物理机器人的性能
    • 为了弥补差距,混合方法在对象、传感器和物理参数上使用域随机化,鼓励policy学习对传感、控制和物理中的不精确的稳健把握。
  • 该方法基于深度图像规划抓取,可以通过光线跟踪方法精确模拟,并且不受物体颜色的影响
  • Dex Net 4.0训练数据集,该数据集包含500多万次与合成点云相关的抓取和从模拟堆中的1664个独特3D对象计算的抓取度量
  • 采用两个抓取器:平行钳口夹持器和基于真空的吸盘夹持器,为每个抓取器训练单独的Grasp Quality Convolutional Neural Networks(GQ-CNNs),并将它们组合起来为给定点云中的对象规划抓取
  • 本文的贡献:
    • 一种用于双手灵巧机器人抓取的部分可观测马尔可夫决策过程(POMDP)框架,基于鲁棒wrench resistance公共奖励函数
    • 在Dex-Net 4.0数据集上训练的双灵巧抓取策略,该策略为每个抓取器使用单独的GQCNN来计划抓取以最大化品质
    • 与手工编码和学习基线进行比较,实验评估了ABB YuMi机器人在多达50种不同的新物体堆中的拾取性能

RESULTS

Ambidextrous robot grasping

  • 在第1次抓取尝试中,机器人观察到来自深度相机的点云。机器人使用策略\mathbf{u}_{t}=\pi(\mathbf{y}_{t})为抓取器g规划抓取动作ut,该动作ut由抓取器的三维刚性位置和方向Tg = (Rg, Tg)∈SE(3)组成,在执行ut时,如果机器人成功地将一个物体从箱子中抬起并运送到容器中,则奖励Rt = 1,否则奖励Rt = 0,观察结果和奖励取决于机器人未知的潜在状态xt,它描述了每个物体的几何形状、姿势、质心和材料属性,在bin为空或总共抓取次数为T之后,进程终止
  • 初始状态分布。设p(\mathbf{x}_{0})是存在物体的变化和相机定位的公差而期望机器人处理的环境的可能状态的分布
  • 观测分布。设p(\mathbf{y}_{t}|\mathbf{x}_{t})是存在传感器噪声和相机光学参数中的公差的给定状态观测值上的分布。
  •  过渡分布。设p(\mathbf{x}_{t+1}|\mathbf{x}_{t},\mathbf{u}_{t})是给定当前状态和由于控制和物理的不精确性而引起的抓取动作的下一个状态的分布
  • 目标是学习策略\pi,以最大限度地提高奖励率或MPPH \rho,最高可达T次抓取尝试:\mathfrak{p}(\pi)=\mathbb{E}\Bigg[\left(\sum_{t=0}^{T-1}R_t\right)\Bigg/\left(\sum_{t=0}^{T-1}\Delta_t\right)\Bigg],其中T是抓握尝试的次数,\Delta _t是以小时为单位执行抓握动作ut的持续时间
  • 预期是关于环境分布的:p(\mathbf{x}_0,\mathbf{y}_0,...,\mathbf{x}_T,\mathbf{y}_T|\pi)=p(\mathbf{x}_0)\overset{T-1}{\underset{t=0}{\operatorname*{\prod}}}p(\mathbf{y}_t|\mathbf{x}_t)p(\mathbf{x}_{t+1}|\mathbf{x}_t,\pi(\mathbf{y}_t))
  • 通常用抓取策略的平均速率和可靠性F(也称为成功率)来衡量性能:v=1/\mathbb{E}[\Delta_t],\Phi(\pi)=\mathbb{E}\left[\frac{1}{T}\sum_{t=0}^{T-1}R_t\right]
  • 如果每次抓取的时间是恒定的,MPPH是速率和可靠性的乘积:\mathbf{p}=\nu\mathbf{\Phi}.

Learning from synthetic data

  • 数据集使用分析模型 analytic models 和对不同范围的对象、相机和物理参数的域随机化生成,以实现从模拟到现实的稳健转移
  • 该方法在每次抓取恒定时间的假设下优化策略以最大化MPPH:\pi^*=\text{argmax}_\pi\Phi(\pi)
  • 该方法使用基于物理和几何模型的训练数据集生成分布\mu,计算合成一个由点云、抓取和异构抓取奖励标签组成的大规模训练数据集
  • 分布\mu由两个随机分量组成:
    • 一个合成训练环境\xi(\mathbf{y}_0,R_0,\ldots,\mathbf{y}_T,R_T|\pi),可以对给定策略的成对观察和奖励进行抽样
    • 数据收集策略\tau(\mathbf{u}_{t}|\mathbf{x}_{t},\mathbf{y}_{t}),可以使用全状态知识对不同的抓握集进行抽样
  • 综合训练环境通过根据抓取器抵抗重力和随机扰动引起的力和扭矩的能力评估奖励来模拟抓取结果。该环境还随机地对箱子中的3D对象进行采样,并使用相机位置、焦距和光学中心像素的域随机化来呈现场景的深度图像
  • 数据集收集策略使用算法监督来评估合成训练环境中的action,以引导成功抓取
  • 首先从\mu的软件实现中采样了一个大规模的训练数据集\mathcal{D}=\left\{\left(R_{i}\mathbf{y}_{i}\mathbf{u}_{i}\right)\right\}_{i=1}^{N}。然后,我们学习了一个GC-CNN Q_{\theta,g}(\mathbf{y},\mathbf{u})\in[0,1] 来估计给定深度图像的夹具g抓取的成功概率。具体而言,我们优化权重\mathbf{\theta}_{g},以最小化GQ-CNN预测和数据集D上的真实奖励之间的交叉熵损失\mathcal{L}: \theta_g^*=\underset{\theta_g\in\Theta}{\operatorname*{argmin}}\sum_{(R_i,\mathbf{u}_i,\mathbf{y}_i)\in\mathcal{D}_g}\mathcal{L}(R_i,Q_0(\mathbf{y}_i,\mathbf{u}_i)),其中Dg表示仅包含夹具g的抓取的训练数据集D的子集
  • 我们从GC-CNN中构建了一个机器人策略\pi_\theta来规划使所有夹持器的品质最大化的抓取动作:\pi_{\mathbf{\theta}}(\mathbf{y}_{t})=\underset{g\in\mathcal{G}}{\mathrm{argmax}}\left\{\max_{\mathbf{u}_{g}\in\mathcal{U}_{g}}Q_{\mathbf{\theta},g}(\mathbf{y}_{t},\mathbf{u}_{g})\right\}
    • 其中\mathcal{U}_{g}是从深度图像中采样的抓手g的一组候选抓手
    • 数据收集策略在给定一堆模拟对象的情况下提出行动,综合训练环境评估奖励;奖励是通过考虑抓取器抵抗给定力和扭矩的能力来一致计算的
    • 对于每个抓取器,通过优化深度GQ-CNN来训练策略,以在包含来自训练环境的数百万合成示例的大型训练数据集上给出点云来预测抓取成功的概率,根据分析奖励指标,数据点被标记为成功(蓝色)或失败(红色)
    • 在真实机器人上部署了双灵巧策略,通过对每个抓取器使用单独的GQ-CNN来最大化抓取质量来选择抓取器

Physical experiments

  • 实验旨在评估
    • 与一组基线相比,Dex-Net 4.0 policy的可靠性和范围
    • 训练数据集多样性、神经网络架构和从真实数据中学习的影响
    • Dex-Net 4.0 policy的失效模式
  • 为了分析性能,我们选择了一个包含50个物体的数据集,这些物体具有不同的形状、大小和材料属性。将物体分成两个难度等级,每个难度等级有25个物体,如图2所示:
    • 抓取规划是基于来自头顶Photoneo PhoXi S工业深度相机的3D点云
  • 对于每次试验,我们将所有物体放入箱子中,并允许机器人迭代地尝试抓取,直到没有物体剩余或达到最大尝试次数

Comparison with baseline policies

在五项独立试验中对Dex-Net 4.0双灵巧政策的三个基线进行了评估

为了与实践中使用的手工编码方法进行比较,我们实现了一个best-effort suction-only policy和一个基于几何启发式的双灵巧策略

为了研究一致奖励模型的重要性,还评估了使用Dex-Net 2.0和3.0对模拟堆进行微调的策略,为每个抓手提供单独的奖励指标

DexNet 4.0在所有对象数据集上实现了最高的成功率,在1级和2级对象上的可靠性分别为97%和95%

  • (D)两种训练方案的性能:改进的GQ-CNN (ImpGQ-CNN)架构和在13,000个真实数据点上的微调(FT)

在表1中详细介绍了每个策略的附加度量;在1级对象上的MPPH略低于the suction heuristic 因为heuristic可以比GQ-CNN更快地评估

Performance with large heaps

Dex-Net 4.0的可靠性最高,达到90%。相比之下,启发式的性能相对不变,成功率接近80%。Dex-Net 4.0的一些失败是由于试图从其他对象的下面抬起对象

Varying the neural network architecture

不会导致性能的大幅提高

Adversarial objects

为了探索Dex-Net 4.0策略范围的边界,我们在第三个对象数据集上评估了它的性能,该数据集包含25个新对象,由于对抗性几何、透明度、高光性和可变形性

Dex-Net 4.0策略的失败经常连续发生几次。为了描述这些连续失败,我们探索了一种基于一阶内存 first-order memory-based policy 的策略,以鼓励在重复失败时进行探索

该策略使用实例识别系统将对象段与数据库中的先前失败相匹配,并在没有可用抓取的情况下推动对象创建可访问的抓取点

内存的增加使可靠性在242 MPPH时提高到80%

DISCUSSION

  • 表明在抓取器之间进行一致的奖励功能学习可以提高物理机器人的可靠性
  • 实验还表明,性能对几个因素很敏感。包含更多对象的堆会导致可靠性降低,因为策略会尝试抓起堆中被其他对象遮挡的对象
  • 性能还取决于训练数据集的多样性,更多样化的数据集导致物理机器人的性能更高
  • 性能根据测试对象而变化,更复杂的几何形状和材料特性导致可靠性降低。使用存储系统可以帮助补偿重复故障,将对抗性对象的可靠性从63%提高到80%

Benefits of ambidextrous grasping

双灵巧抓取策略在20%的抓取尝试中使用平行颌,在2级物体上达到95%的可靠性

一致的奖励学习一种灵活的策略,可靠地在多个夹持器之间做出决定

Physics-based reward design

结果还表明,具有域随机化的分析准静态抓取质量度量analytic quasi-static grasp quality metrics 可以用作学习对传感器噪声和不精确性具有鲁棒性的双灵巧抓取策略的计算高效的奖励函数

这与过去的研究(5,6)形成鲜明对比

Bias-variance tradeoff in dataset collection

实验表明,对从物理实验中收集的13,000个样本进行微调的策略并不能显著改善仅在合成数据上训练的Dex-Net 4.0双灵巧抓取策略

这似乎是违反直觉的,因为用于生成合成训练数据的模型不可能模拟真实世界系统的确切行为,因此可能会产生偏差

Sequential learning for UP

寻找最大化MPPH的策略本质上是一个顺序学习问题,抓取动作会影响堆的未来状态。

模仿学习理论(40)和强化学习理论(41)认为,为了保证高可靠性,政策应该采取导致具有高预期未来回报状态的行动

然而,本文的实验表明,Dex-Net 4.0策略在拣箱的顺序任务上表现良好,尽管它是用监督学习训练的,以贪婪地最大化单个时间步的成功概率

Application to different sensors and grippers

训练UP策略的Dex-Net 4.0方法可以通过实现新的数据集生成分布并在该分布的样本上训练新的GQ-CNN来应用于其他对象、相机和抓取器

Opportunities for future research

该策略最常见的失败模式:

  • 试图抓住由于堆中重叠而被遮挡的对象
  • 在具有对抗性几何和材料属性的对象上重复失败

Dex-Net 4.0还不能可靠地抓取的对象:

  • 一类是深度相机无法察觉的物体,比如具有透明或镜面的物体
  • 另一类是结构表面变化,如遥控器上的平行线或按钮,这可能会引发抽吸网络suction network的误报
  • 其他类包括多孔对象和松散包装的对象

一些故障模式可以通过增加训练数据集中对象的多样性或改进数据集生成模型来解决:使用域随机化(17)渲染合成彩色图像可以使系统能够捕捉透明、高光或高度纹理化的物体

形和孔隙度模型可用于减少由于DexNet 4.0模型的错误假设而导致的吸力失效

奖励模型也可以扩展到从所有物体之间的接触计算wrench,而不是只考虑抓手和重力,这可以减少由于物体重叠而导致的故障

在使用一阶记忆系统的3级对象上观察到的性能提高表明,强化学习可以用来减少重复失败

在经验收集数据的更大数据集上进行训练可以减少模拟与现实的差距

使用基于视觉伺服(10,28,42)、力感应(43-45)或触觉感应(46-49)的主动重新抓取掉落物体的反馈策略。

  • 23
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值