题目:Deep Learning to Plan Robust Grasps with Synthetic Point Clouds and Analytic Grasp
引言
传统抓取方法的局限性
- 缺乏泛化能力
- 需要大量计算资源和手工标注数据
- 【前两种依赖物体形状、材料、质量等先验知识+通常要对物体建模+姿态评估+运动学分析】
- 只能处理单个物体抓取
与机器人抓取规划相关的研究工作
- 基于物理模型的解析方法
1.基于几何形状
2.基于力学稳定性的抓取规划方法
🎈1.使用物理模型来描述机器人、物体和环境之间的相互作用;
🎈2.通过优化算法来寻找最优抓取姿态
- 基于数据驱动的经验方法
1.基于学习的抓取规划方法
2.基于深度学习的抓取规划方法
🎈相比于基于学习的抓取规划方法,基于深度学习的方法更注重特征提取和模型优化,从而提高抓取精度和效率
- 基于传感器反馈的抓取规划方法
1.使用机器人手爪上的力/触觉传感器或视觉传感器等实时获取物体和环境信息,根据这些信息进行抓取规划
2.需要对物体和环境进行实时建模,并且需要高精度的传感器来获取准确的反馈信息。
本文贡献
- Dex-Net2.0数据集
1.1500个3D物体模型+6.7百万个抓取姿态
2.每个物体在每个稳定姿态下的点云渲染图+将抓取与渲染图像中的像素位置和方法相关联
- 一个抓取方法
GQ-CNN卷积神经网络
作用:从深度图像中预测每个抓取姿态的成功概率,并按照概率排序抓取姿态
输入:深度图像、深度信息
输出:一组用于计算抓取稳定性函数的参数
中间:4个卷积层+一个池化层+三个全连接层
后续处理:选择抓取概率最高的前N个姿态作为候选姿态+使用物理仿真+其他评估方法对姿态进行评估,以选择最终的抓取姿态
研究问题与目标
🎈研究问题:基于深度相机获取的点云数据上,如何规划一个稳健的平面平行夹爪抓取姿态,以确保在感知和控制不确定性下成功地抓取单个刚性物体呢?
🎈研究目标:
- 学习一个稳健函数Q_*(u,y∈[0,1]来预测抓取成功率
- 将这些姿态按照成功概率排序以实现快速抓取规划
针对研究目标提出的解决方案
- 数据集构建:Dex-Net2.0数据集
- 数据预处理:三维模型转换为深度图像+深度图裁剪旋转等,从而得到标准化的训练数据集
- CNN模型训练:使用标准化的训练数据集训练卷积神经网络模型
- 稳定性评估
实验
- 分类性能评估
- 使用不同的方法(GQ-L-Adv、GQ-S-Adv、GQ-Adv、ML-SVM和ML-RF)对合成数据集(Adv-Synth)进行分类性能评估
- 使用Cornell Grasping Dataset对GQ-CNN模型进行训练,并使用灰度图像和80-20图像训练验证分割来获得93.0%的识别率
- 不同抓取规划方法在未知物体上的性能比较
- 在真实机械臂抓取实验下的结果,对test数据集中10个家庭物品分别进行5次抓取实验
- 不同的抓取方法
- IGQ: Image-based Grasp Quality Metrics,是一种使用图像信息来评估抓取质量的抓取规划方法
- REG: Point cloud registration,是一种点云配准方法
- GQ-Adv-Phys:在GQ-Adv模型的基础上针对物理约束条件进行了优化,以提高在真实物理环境下的抓取成功率
- GQ-Adv:在GQ-S-Adv模型的基础上进一步改进的模型,通过引入更多的训练数据和更复杂的网络结构来提高抓取质量预测的准确性和稳定性
- GQ-S-Adv:一种基于对抗性训练的GQ-CNN模型,通过对抓取质量进行预测和优化来实现高效、准确和稳健的抓取。
- GQCNN
- 不同抓取规划方法在已知物体上的性能比较
- 在真实机械臂抓取实验下的结果,对Train数据集中8个已知物体分别进行10次抓取实验
- 不同的抓取方法
random
lGQ
ML-RF:随机森林
ML-SVM:支持向量机
REG
GQ-L-Adv:本文的GQ-CNN模型衍生出来了六种基于GQCNN改进后的网络模型,也在这里进行了比较
1.背景介绍
- 合成数据集:通过计算机模拟生成的数据集,而不是通过真实的物理实验、观测或者采集得到的数据集。这种方法可以控制物体、场景和光照等条件,以满足特定的研究需求.
由于感知和执行的不精确性,可靠的机器人抓取非常具有挑战性,这导致了对物体形状、姿态、材料特性和质量等属性的不确定性。最近的研究表明,基于大规模人类抓取标签或物理抓取结果的深度神经网络可以用于直接从图像或点云中规划成功抓取多种物体,类似于计算机视觉中的泛化结果,但数据收集要么需要繁琐的人工标记,要么需要在物理系统上执行数月时间。
概括:发现使用深度神经网络进行抓取规划可以在多种物体上实现成功抓取,但数据收集需要耗费大量时间和精力。
另一种方法是使用基于物理的分析来规划抓取,如笼式抓取、抓取扳手空间(GWS)分析、稳健的GWS分析或模拟,这些都可以使用云计算快速计算。然而,这些方法假设了一个单独的感知系统,该系统可以完全或根据已知的高斯分布估计物体形状或姿态等属性。这很容易出错,可能不能很好地泛化到新对象,并且在执行过程中将点云与已知模型匹配的速度很慢。在本文中,我们考虑直接从深度图像中预测抓取成功,方法是在大量的平行夹持抓取数据集上训练深度卷积神经网络(CNN),并使用鲁棒抓取和图像形成的分析模型生成点云,基于最近对力闭合抓取的分类研究和动态抓取模拟的结果。
概括:传统的物理分析和仿真方法虽然能够快速计算出手抓物体的效果,但其需要完美或基于高斯分布的预测模型,容易出现误差且不适用于新的物体,而本文则通过深度图像训练卷积神经网络,直接预测手抓成功率,进一步提升了手抓效果的准确性和普适性。
我们的主要贡献是:1) Dex-Net 2.0 数据集,将 6.7 百万个点云和分析抓握质量指标与使用鲁棒准静态GWS分析在 1500 个 3D 物体模型上规划的平行夹持抓握相联系;2) Grasp Quality 卷积神经网络(GQ-CNN)模型,训练使用预期 epsilon 质量作为监督,在深度图像中对鲁棒抓取进行分类,其中每个抓取都指定为相对于相机的平面姿态和深度;以及 3) 一个抓取规划方法,对反极点抓取候选进行采样,并使用 GQ-CNN 对它们进行排名。
在测试使用ABB YuMi机器人抓取单个物体时,与基于图像的抓取启发式算法、随机森林、支持向量机和基线进行比较后,我们发现Dex-Net 2.0抓取规划器比基于注册的方法快3倍,在训练集上的成功率达到93%(学习型方法中最高的),并且在新颖的物体上表现最好,尽管完全是使用合成数据进行训练,但在包含40个家用物品的数据集上,其精度达到了99%。
2.相关技术研究
- 点云注册:是一个基于几何学的过程,其目标是将点云数据与三维模型对齐,使得它们在空间中的位置和姿态相同,从而实现匹配。这种方法可以用于物体识别、姿态估计、抓取规划等任务中。
- 使用鲁棒性指标来标记3D物体模型上的抓取可以通过以下步骤实现:
- 定义鲁棒性指标:选择适当的鲁棒性指标来量化抓取姿态的鲁棒性。
- 生成抓取姿态:使用抓取规划算法生成一组抓取姿态。
- 模拟实验:在虚拟环境中进行模拟实验,评估每个抓取姿态的鲁棒性指标。
- 标记抓取姿态:将鲁棒性指标高于一定阈值的抓取姿态标记为可行的抓取姿态。
- 基于注册的规划方法:这种方法的基本思想是将系统中的实体和关系表示为谓词逻辑形式,并使用逻辑程序来描述系统的状态和转换。例如,一个机器人可以被表示为一个谓词“robot”,其位置可以表示为“at(x,y)”等。系统的转换可以通过逻辑规则来表示,例如,如果机器人位于位置(x,y),并执行一个动作“move_right”,则机器人将移动到位置(x+1,y)。
抓取规划
抓取规划考虑在环境中给定一个物体和可及性约束条件下,找到最大化成功(或质量)指标的夹爪配置,方法可分为两类:根据成功标准的分析方法,以物理模型为基础,如抵抗外部扭矩的能力;以及经验(或数据驱动)方法,通常使用人类标签或物理试验中举起物体的能力。
分析方法。分析方法通常假设物体和接触位置是准确已知的,并考虑抵抗外部扳手的能力或限制物体运动的能力。要在物理机器人上执行抓取,一种常见的方法是预先计算一个已知3D对象的数据库,该数据库标记有抓取和质量指标,如GraspIt!。预计算抓取使用点云配准进行索引:使用视觉和几何相似性将点云与数据库中已知的3D对象模型匹配,并对估计的对象实例执行最高质量的抓取。
概括:这段话主要讲述了分析方法在机器人抓取任务中的应用,包括先预先计算出一组已知物体的抓取姿势和质量指标,再使用点云注册来匹配物体实例并执行最高质量的抓取。
鲁棒抓取规划(RGP)方法最大化抓取鲁棒性,或在传感和控制的不确定性下分析度量的期望值。这通常涉及到在数据库3D对象模型上标记抓取,具有健壮的度量,如力闭合概率或姿态误差健壮度量,并使用基于注册的规划。最近的研究表明,使用Multi-Armed Bandits和先前3D对象的数据集以及鲁棒抓取,如Dexterity Network (Dex-Net) 1.0可以提高RGP的采样复杂性。在这项工作中,我们对Dex-Net 1.0进行了重大扩展,将合成点云与鲁棒抓取相关联,并训练卷积神经网络将点云和候选抓取映射到估计的鲁棒性。
概括:RGP方法,通过使用鲁棒性指标来标记数据库3D物体模型上的抓取,并使用基于注册的规划,以期望值最大化抓取的鲁棒性,并通过Dex-Net 1.0数据集中的人工合成点云关联鲁棒抓取,训练卷积神经网络来预测点云和候选抓取的鲁棒性。
实证方法。经验方法通常使用机器学习来开发模型,从机器人传感器读数直接映射到人类或物理试验的成功标签。由于与身体成功的经验相关性,人类标签已经变得流行,尽管对于大型数据集来说,获取这些标签可能很昂贵。该领域的研究主要集中在将人体标签与RGB-D图像或点云中的可抓取区域相关联。Lenz等人创建了一个包含超过1k RGB-D图像的数据集,其中包含成功和不成功抓取区域的人类标签,该数据集已用于训练基于cnn的快速检测模型。
概括:经验方法的其中之一,通常使用机器学习来开发模型,这些模型能够将机器人传感器读数与人类或物理试验中的成功标签进行映射。为了获得标签数据,人们通常会对机器人在物理试验中执行抓取动作,或者请人类专家对机器人在虚拟或仿真环境中执行的抓取动作进行评价,然后将这些标签与对应的传感器数据一起用于训练模型。但是这种方法在获取大型数据集的时候不容易。
另一条关于经验抓取规划研究试图直接优化物理试验中的成功率。为了克服在物理机器人上生成样本的时间成本,研究人员开发了主动学习方法,例如使用相关Beta过程或先验置信区间的Multi-Armed Bandits。最近,Pinto和Gupta通过记录Baxter上超过40k次抓取经验,并迭代训练cnn来预测抓取成功或抵抗对手引起的抓取扰动,扩大了数据收集。Levine等人进一步扩大了数据集收集,通过一组连续运行的机械臂收集了超过800k个数据点,并使用深度学习来预测末端执行器的姿势。然而,这需要对多达14个机器人进行2个多月的训练。
机器人抓取中的计算机视觉技术
机器人抓取中通常使用图像来进行抓取规划。传统的分析抓取规划方法通过将刚体物体的图像与已知的3D模型数据库进行配准,涉及到从3D点云数据中的分割、分类和几何姿态估计等多个步骤,但这种多阶段方法容易遇到超参数调整的困难以及各个模块之间误差的累积的问题。
另一种方法是使用深度学习直接从颜色和深度图像中估计3D物体形状和姿态。机器人技术最近的研究集中在如何通过构造神经网络融合图像中单独的颜色和深度流的方式来提高物体识别的准确性,并在合成训练图像中添加合成噪声。另一种方法是直接在图像中检测可抓取区域,而不显式地表示物体形状和姿态,因为可能并不总是需要显式地识别物体及其姿态来执行抓取。
由于在真实图像上的训练可能需要大量的数据收集时间,另一种方法是在模拟图像上学习,并通过适应真实数据来调整表示。最近的研究表明,在某些情况下,在使用模拟器参数扰动生成的数据集上进行训练可能就足够了。值得注意的是,Johns使用带有模拟噪声的渲染深度图像来训练基于cnn的检测器,使用动态模拟作为监督。我们在这些结果的基础上,使用稳健的分析抓取指标作为监督,使用抓手与相机的距离进行预测,并对物理机器人进行广泛的评估。
3. 一些设定
本文讨论了使用深度相机的点云数据,为放置在桌子上的单个刚体对象规划一个稳健的平面平行夹爪抓取方案的问题,并学习一个函数,该函数以候选抓取和深度图像作为输入,输出一个鲁棒性估计或在感知和控制不确定性下成功概率的概率。
A.假设
使用深度相机拍摄单视角(2.5D)点云图像来生成数据集,并假设使用平行夹爪、刚性物体单独放置在平面工作表面上,并且假设已知夹爪几何和单个高架深度相机的内参。
B.定义
- 设x=(O,To, Te, y)表示描述环境中相机和物体的可变属性的状态,其中O表示物体的几何和质量属性,To, Te分别为物体和相机的三维位姿,y为物体与夹爪之间的摩擦系数。
- 设u = (x, y, z,φ) 表示在三维空间中的平行爪抓取,p = (x, y, z)代表在相机坐标系下中心点的坐标 ,φ 表示与水平面的夹角
- 设 y = RH×W 作为一个 2.5D 点云,用一个深度图像来表示,该深度图像具有高度 H 和宽度 W,由已知内参的相机拍摄,Tc 是相机的三维姿态。
- 一些评判指标。令 S(u, x) ∈ {0, 1} 表示抓取成功度量,令 p(S, u, x, y) 表示在感知和控制不确定性中建模抓取成功、抓取、状态和点云的联合分布。
C.Objective
一共定义了三个东西:
一个函数:Qθ∗(u, y) ∈ [0, 1],用于分类不同抓取的成功率;
一个公式:表示如何通过优化θ∗来训练模型:
其中θ表示GQCNN的参数,L是交叉熵损失函数,Ep(S,u,x,y)是输入图像的期望值;
一个公式:πθ(y) = argmaxu∈CQθ(u, y)。表示如何使用学习到的鲁棒性函数Q~θ∗来制定一个优化策略,以实现最佳抓取。其中C指定了一些约束条件。
4. 数据集&&网络
4.1 Dex-Net 2.0数据集
- 数据集包含了1,500个3D模型、6.7百万个合成点云、抓取和稳健度量。
- 用于训练GQ-CNN模型
4.2 GQ-CNN网络
- 深度图像作为输入,输出一个抓取成功概率
- 视角归一化:将深度图像转换为与抓取中心像素对齐并朝向正确方向的单个图像
网络结构:
- 输入层:接受深度图像和距离信息作为输入。
- 卷积层:四个卷积层,每个卷积层都由一个卷积操作和一个ReLU激活函数组成。这些卷积层用于提取深度图像中的特征。
- 池化层:一个池化层,每个池化层都使用最大池化操作来减小特征图的大小。
- 全连接层:有三个全连接层,每个全连接层都由一个线性变换和一个ReLU激活函数组成。这些全连接层用于将特征映射到抓取成功概率空间。
- 输出层:输出抓取成功概率.
5. 实验
比较抓取规划方法的物理基准测试的实验平台
作者在每次试验前都使用棋盘格将相机与机器人进行标定,并且每次试验都重新放置目标物体记录下每个抓取规划方法的性能指标
评估指标:
- 抓取成功率:·所有试验中成功抓取目标物体的比例;
- 准确性:机器人在决定是否抓取物体时所做的正确决策的比例。机器人估计到某个抓取姿态的稳定性高于50%时,它会决定执行该姿态。如果该姿态确实能够成功地抓取物体,则认为这是一次正确的决策
- 抓取质量:抓取姿态与目标物体真实姿态之间的差异;
- 计算时间:每个抓取规划方法生成目标姿态所需的平均时间
Datasets:基准测试中用的
- Train:包含8个3D打印的物体,用于设置模型参数和评估已知物体上的性能;
- Test:包含12个未知物体,用于评估模型在未知物体上的泛化能力。
测试不同数据集对GQCNN的影响
- 自建测试集:10个家庭物品,有不同的材料、几何和镜面反射属性。符合以下三个约束条件:
- 大小适合于工作空间;
- 重量小于0.25kg,与YuMi机器人的负载能力相匹配;
- 离桌面高度大于1.0cm
作者对每个物品进行了多次采样,并记录了每次采样时的彩色图像、深度图像和稳定姿态标签。最终得到了一个包含大量物体实例和对应标签的测试数据集。
- 训练集
- Adv-Synth: 一种基于合成数据的方法,用于生成大量的训练数据以提高模型性能。该方法使用物理模型和随机采样技术生成大量的合成图像和稳定姿态标签。、
- 2.Adv-Phys: 一种基于物理模型的方法,用于预测物体在不同姿态下的稳定性。该方法使用物理模型和优化算法计算每个姿态下物体的稳定得分,并将其用作抓取规划中的输入特征。
- Dex-Net-Small: 一个包含600个物体实例和2,400张彩色图像、深度图像和稳定姿态标签的小型训练数据集。该数据集是从Dex-Net 2.0中随机采样得到的,并用于研究GQ-CNN模型在小规模数据集上的表现。
- Dex-Net-Large: 一个包含6,000个物体实例和24,000张彩色图像、深度图像和稳定姿态标签的大型训练数据集。该数据集是从Dex-Net 2.0中随机采样得到的,并用于研究GQ-CNN模型在大规模数据集上的表现。
不同方法分类准确率的比较
不同方法在Adv-Synth数据集里的实验结果比较:
- GQ-Train-L:代表基于力学模型的抓取质量评估模型,这个模型通过分析物体的物理特性来预测抓取的质量。
- GQ-Train-S:代表基于统计学的抓取质量评估模型,这个模型通过分析大量抓取数据来学习抓取质量的统计规律,并通过这些规律来预测新的抓取质量。
抓取规划方法在已知物体上的性能
- 此处用到Train数据集:对8个已知物体分别进行10次抓取实验
Success Rate是从输入深度图到抓取的成功率。
Precision是在得到最优抓取配置的情况下的抓取成功率(有可能网络认为所有的采样抓取都不行,大于0.5认为可行)
Robust Grasp Rate是网络认为质量最高的抓取可行的概率(比如输入100张图像,只有50张图中给出的质量最高的抓取的可行性大于0.5,则该项值为50%)。
- 常规的抓取规划方法比较:(上述图左边)
- IGQ:Image-based Grasp Quality Metrics,是一种使用图像信息来评估抓取质量的抓取规划方法。
- ML-RF:随机森林(Random Forest),是一种常见的机器学习模型·
- ML-SVM:支持向量机(Support Vector Machine)
- REG:Point cloud registration,是一种点云配准方法,本文中作者将其用于对物体姿态进行估计和优化。
- GQ-L-Adv:本文的GQ-CNN模型
作者将每种方法在上述数据集上进行了测试,并得出了平均指标:成功率、准确性、平均抓取质量和平均计算时间等性能指标。
- 基于GQ-CNN模型进行改进和优化后的比较:(上述图右边)
- GQ-S-Adv:是一种基于对抗性训练的GQ-CNN模型,通过对抓取质量进行预测和优化来实现高效、准确和稳健的抓取。
- GQ-Adv:是在GQ-S-Adv模型的基础上进一步改进的模型,通过引入更多的训练数据和更复杂的网络结构来提高抓取质量预测的准确性和稳定性。
- GQ-Adv-Phys:是在GQ-Adv模型的基础上针对物理约束条件进行了优化,以提高在真实物理环境下的抓取成功率。
- GQ-Adv-FC:是在GQ-Adv模型中引入了全连接层,并使用更大尺寸的输入图像来提高抓取质量预测精度。
- GQ-Adv-LowU:是一种针对低摩擦系数物体设计的GQ-CNN模型,通过考虑低摩擦系数物体表面特征来提高其抓取成功率。
- GQ-Adv-HighU:是一种针对高摩擦系数物体设计的GQ-CNN模型,通过考虑高摩擦系数物体表面特征来提高其抓取成功率。
- 功率和更短的计算时间。
结果:这些基于深度学习的抓握规划方法在不同数据集和不同物体上都取得了很好的效果,并且相比传统方法具有更高的准确性、稳定性和泛化能力。
抓取规划方法在未知物体上的性能
- 对test数据集的10个未知物体进行了抓取规划方法的性能评估,每个方法都进行了50次试验(每个物体5次)。这些未知物体具有各种材料、几何和镜面属性,用于评估抓取规划器在未知物体上的泛化能力。
训练过的物体的Precision比没训练过的物体低的原因是,测试用的训练的物体都是形状复杂且很难抓取的那种。
Dex-Net 2.0抓取计划的泛化能力评估(左图)
- 40个未知物体进行了100次试验,每个物体进行5次试验
- 使用交叉熵方法(CEM)来寻找最佳的稳健抓取策略
5. 未来规划
- Dex-Net 2.0抓取规划器仍然存在一些局限性,例如对物体形状和材料的依赖性较强,以及对物体之间的干扰较为敏感;
- 未来:改进抓取规划器的泛化能力、增强对物体形状和材料的适应性、提高抓取规划器在复杂环境中的鲁棒性等。