点击下方卡片,关注“自动驾驶之心”公众号
机器人抓取是具身系统的核心能力。许多方法直接从局部信息输出抓取姿态,而不建模场景几何,这会导致运动次优甚至碰撞。为解决这些问题,我们引入ZeroGrasp,这是一个可近实时同步执行3D重建和抓取姿态预测的新框架。方法的核心思想是,遮挡推理和建模物体间空间关系对精确重建和抓取都有益。我们将该方法与一个新的大规模合成数据集结合,该数据集包含100万张照片级真实图像、高分辨率3D重建以及来自Objaverse-LVIS数据集的1.2万个物体的113亿个物理有效抓取姿态标注。在GraspNet-1B基准测试和真实机器人实验中对ZeroGrasp进行了评估。ZeroGrasp通过利用合成数据,实现了最先进的性能,并能推广到真实世界中的新物体。
项目链接:https://sh8.io/#/zerograsp
行业背景
安全可靠的机器人抓取需要对目标物体及其周围环境有准确的几何理解。然而,大多数之前的抓取检测方法不明确建模目标物体的几何形状,这可能导致意外碰撞和与目标物体的不稳定接触。尽管有几种方法利用多视图图像预先重建目标物体,但这一过程会引入额外的计算开销,并且需要更复杂的设置。对于放置在货架或盒子等受限空间内的物体,多视图重建通常也不切实际。此外,缺乏带有真实3D形状和抓取姿态注释的大规模数据集,进一步增加了从单张RGB-D图像进行准确3D重建的难度。最近,几项研究表明,在运行时间、准确性和分辨率方面,稀疏体素表示优于体素和类NeRF的隐式形状表示,尤其对于基于回归的零样本3D重建。

为了将使用稀疏体素表示的重建方法用于机器人抓取,在一个统一框架内开发能够同时推理这两个方面的新方法至关重要。为此,我们提出了ZeroGrasp,这是一个用于近实时3D重建和6D抓取姿态预测的新框架。关键假设是,改进的3D重建质量可以通过利用基于物理的接触约束和碰撞检测来提高抓取姿态预测,这对于准确抓取至关重要。由于机器人环境通常涉及具有物体间遮挡和紧密接触的多个物体,ZeroGrasp引入了两个关键组件:多物体编码器和3D遮挡场。这些组件有效地建模了物体间关系和遮挡,从而提高了重建质量。此外,设计了一种简单的优化算法,利用预测的重建来改进抓取姿态。由于重建非常准确,它提供了可靠的接触点和抓取器与目标物体之间的碰撞mask,我们用这些来优化抓取姿态。
除了提出的模型,还创建了用于评估的真实世界数据集ReOcS和用于训练的合成数据集ZeroGrasp-11B。ReOcS数据集是一个真实世界的3D重建评估数据集,有三个代表不同遮挡程度的分割。我们用这个数据集来评估对遮挡的鲁棒性。ZeroGrasp-11B数据集是一个大规模合成数据集,旨在训练具有零样本机器人抓取能力的模型,包含来自Objaverse-LVIS数据集的高质量和多样化的3D模型,如表1所示。

对基线和zerograsp都进行了评估,我们的方法仅在GraspNet-1B数据集上训练,以及在GraspNet-1B数据集和ZeroGrasp-11B的组合上训练,在GraspNet-1B基准测试中取得了最先进的性能。消融研究进一步表明,所提出的组件提高了重建和抓取姿态预测的质量。最后进行了真实机器人评估,以证明其在真实场景中的泛化能力。
贡献如下:
提出了ZeroGrasp,这是一个使用基于八叉树的条件变分自动编码器(CVAE)同时进行3D重建和6D抓取姿态预测的新框架。ZeroGrasp在GraspNet-1B基准测试和真实机器人评估中表现最佳。
引入了多物体编码器和3D遮挡场来建模物体间关系和遮挡。
提出了一种简单的抓取姿态优化算法,利用重建的3D形状提高抓取精度。
创建了两个数据集,1)用于评估遮挡下3D重建的ReOcS数据集,2)用于零样本机器人抓取的ZeroGrasp-11B数据集。
相关工作汇总
基于回归的3D重建
从单视图RGB-D图像进行基于回归的3D重建一直是3D计算机视觉研究的主要焦点。这些方法探索了不同的3D表示,包括密集体素网格、稀疏体素网格(如八叉树、VDB、哈希表等)和隐式表示。然而,由于内存和计算成本高昂,密集体素网格和隐式表示在输出分辨率上存在限制。另一方面,几项研究表明,由于其高效的层次结构,八叉树和VDB等稀疏体素表示能够实现高分辨率的3D重建,并且运行时间更快。另外,通过新视图合成的单视图重建取得了令人印象深刻的结果。最近的工作如GeNVS、Zero-1-to-3、3DiM和InstantMesh利用扩散模型在给定规范相机姿态的情况下渲染多视图图像。然而,这些方法速度慢(通常超过10秒),并且物体间遮挡会显著降低性能。此外,集成抓取姿态预测并非易事。因此,这里采用八叉树作为形状表示,并基于基于八叉树的U-Net设计我们的框架。
基于回归的抓取姿态预测
传统的抓取姿态预测方法通常假设具有3D物体的先验知识,并且通常依赖于基于力闭合原理的简化分析模型。最近,基于学习的方法取得了巨大进展,这些方法允许模型直接从RGB(-D)图像和点云预测6D抓取姿态。这使得在高度杂乱的场景中无需显式建模物体几何形状即可回归抓取姿态。然而,这可能导致抓取不稳定和意外碰撞,因为准确学习避免碰撞和精确接触点仍然具有挑战性。尽管有些方法探索3D重建来改进抓取预测,但它们对形状表示和网络架构的选择往往限制了其全部潜力。
零样本机器人抓取
零样本机器人抓取指的是在没有先验知识的情况下抓取未见目标物体的能力。为了实现这一点,主要有两个方向(1)在测试时基于使用重建或真实3D形状的接触点优化抓取姿态,(2)增强或合成大规模抓取数据以提高泛化能力。例如,一些研究提出了基于接触的优化算法,通过使用从多视图RGB-D图像重建的3D场景来优化初始抓取姿态。现有的大规模抓取姿态数据集如ACRONYM、GraspNet-1B和EGAD探索了第二种方法。然而,它们受限于物体多样性或缺少如RGB-D图像的标注。受这两种方法的启发,这里旨在通过一种简单高效的抓取姿态优化算法来提高对未见物体的泛化能力,该算法利用预测的重建。此外还创建了一个用于抓取姿态检测的大规模合成数据集。数据集包含高质量和多样化的物体,以及100万张照片级真实RGB图像和基于物理的抓取姿态注释。
ZeroGrasp方法
我们的目标是构建一个高效且可泛化的模型,用于从单张RGB-D观测中同时进行3D形状重建和抓取姿态预测,并证明预测的重建可用于通过基于接触的约束和碰撞检测来优化抓取姿态。
3D形状表示
我们采用八叉树作为形状表示,其中图像特征、有符号距离函数(SDF)、法线和抓取姿态等属性定义在八叉树的最深层。例如,将输入八叉树表示为最终深度的体素中心p的元组,与图像特征f相关联。
其中N是体素的数量。与点云不同,八叉树结构支持高效的深度优先搜索和递归细分到八分体,使其成为高分辨率形状重建和密集抓取姿态预测的理想选择,在内存和计算效率方面表现出色。
抓取姿态表示
使用GraspNet中使用的通用两指平行抓取器模型来表示抓取姿态。抓取姿态包括以下组件:视图抓取分数 ,表示抓取位置的鲁棒性;质量 ,使用力闭合算法计算;视图方向 ;角度 ;宽度 ;和深度 :
其中M表示目标八叉树中的总抓取次数,并且在5毫米半径内最接近的抓取姿态被分配给每个点。如果不存在,则将其相应的抓取分数设置为0。在GraspNet-1B和ZeroGrasp-11B数据集中,每个点都用覆盖视图、角度和深度所有组合的密集抓取姿态集进行标注。利用抓取姿态g,目标八叉树定义为:
其中 是SDF, 是目标八叉树的法向量。

ZeroGrasp方法
]目标是构建一个高效且具备泛化能力的模型,能够从单张RGB-D图像中同步完成3D形状重建与抓取姿态预测,并证明预测的重建结果可通过基于接触的约束和碰撞检测优化抓取姿态。
1)架构
给定输入八叉树 (由深度图和实例mask生成的实例级局部点云及其对应图像特征组成),旨在预测以八叉树表示的3D重建结果和抓取姿态 。ZeroGrasp基于八叉树U-Net和条件变分自动编码器(CVAE)构建,在实现近实时推理的同时,对形状重建不确定性和抓取姿态预测进行建模。通过两项关键创新提升模型的准确性和泛化能力:(1)引入多物体编码器,通过潜在空间中的3D Transformer建模物体间空间关系,实现无碰撞的3D重建和抓取姿态预测;(2)设计3D遮挡场,通过新型3D遮挡表示捕获物体间遮挡信息,增强遮挡区域的形状重建效果。
八叉树特征提取
对RGB图像 进行编码以提取图像特征 。通过微调SAM-2模型生成2D实例mask ,其中 表示第 个物体的mask。利用反投影函数 将图像特征图转换为3D空间点云及特征 ,其中 为深度图, 为相机内参。通过转换函数 G 将3D点云特征映射为八叉树结构 。
基于八叉树的CVAE
为提升形状重建质量,ZeroGrasp通过基于八叉树的条件变分自动编码器(CVAE)对单视图重建的固有不确定性进行概率建模,这对改善重建和抓取预测精度至关重要。CVAE由编码器 、先验分布 和解码器 组成,将3D形状和抓取姿态的潜在表示建模为对角高斯分布。编码器 基于输入八叉树 和真实标签 预测潜在编码 ;先验分布 生成潜在特征 和编码 ,其中潜在编码通过重参数化技巧从预测的均值和方差中采样;解码器 预测3D重建结果及抓取姿态。为降低计算成本,解码器在各层级预测占用率时丢弃概率低于0.5的网格单元,仅在最后一层输出SDF、法向量、抓取姿态和最终占用率。训练过程中通过最小化编码器与先验分布的KL散度( )实现分布对齐。
多物体编码器
由于先验分布 仅建模单物体特征,缺乏对全局空间布局的建模能力,难以实现无碰撞重建和抓取预测。为此,在潜在空间中引入由K个带自注意力和RoPE位置编码的Transformer块组成的多物体编码器 ,对所有物体的体素中心 和潜在特征 进行跨物体关系建模:
其中L为场景中的物体总数。该模块通过建模物体间空间关系,有效避免重建和抓取姿态中的碰撞问题。
3D遮挡场
多物体编码器主要解决局部碰撞建模问题,而遮挡建模需要全局可见性推理能力。为此,我们设计3D遮挡场,通过基于八叉树的简化体渲染将遮挡信息定位到体素层级。将潜在空间中的体素细分为 个小块并投影到图像空间,通过射线投射检测自遮挡( )和物体间遮挡( )标志。将各小块的遮挡标志拼接为3D遮挡场 ,经三层3D CNN下采样后得到遮挡特征 ,并与潜在特征拼接( )以增强遮挡区域的重建精度。

训练策略
采用与标准VAE类似的训练方式,通过最大化证据下界(ELBO)优化模型。损失函数包含三部分:
重建损失( ):结合各层级占用率损失( )、法向量L1损失( )和SDF损失 ,权重分别为 、 、 。
抓取损失( ):对抓取分数( )、质量( )、角度( )、宽度( )、深度( )分别计算L1损失和交叉熵损失,权重为 。
KL散度损失( ):约束编码器与先验分布的匹配度,权重为 。
3.2 抓取姿态优化算法
3D重建的核心优势在于可利用高精度几何信息优化抓取姿态。相较于Ma等人提出的基于多视图TSDF的接触优化算法(运行速度较慢),我们设计了一种轻量级优化方法,通过基于重建的接触约束和碰撞检测提升抓取稳定性。
接触约束优化
精确的接触点是成功抓取的关键。首先检测抓取器左右指端在重建模型上的最近接触点 和 ,通过调整抓取宽度 w和深度 d 确保指端与物体接触:
其中 为接触距离, 为接触点深度, 和 为接触距离允许范围。
碰撞检测
基于重建模型实现无模型碰撞检测,替代传统基于局部点云的方法(无法处理遮挡区域碰撞)。通过检测抓取器与重建模型的相交情况,剔除存在碰撞的抓取姿态,显著提升复杂场景下的抓取可靠性(对比实验表明,基于重建的碰撞检测使AP指标提升10.6%)。

数据集
构建了两套数据集:(1)ReOcS数据集,用于评估不同遮挡程度下的3D重建性能;(2)ZeroGrasp-11B数据集,用于训练零样本机器人抓取模型。图4展示了数据集的典型示例。
ReOcS数据集
包含1,125张RGB-D图像及对应的实例mask、6D姿态和3D形状标签。采用基于学习的立体深度估计算法获取金属和透明物体的精确深度图。数据集按遮挡程度分为简单、中等、困难三档,用于测试模型在不同遮挡条件下的鲁棒性。
ZeroGrasp-11B数据集
基于Objaverse-LVIS数据集的1.2万个3D模型,通过BlenderProc渲染生成100万张照片级RGB图像、深度图及2.5万场景的真实3D重建和物体姿态。数据集提供113亿个基于物理仿真的6D抓取姿态注释,解决了现有数据集(如GraspAnything-6D)缺乏3D模型、物理无效合成数据和稀疏标注的问题。
抓取姿态生成流程
表面采样:在真实3D模型表面随机采样 个点( 为表面积, 为采样密度)。
候选生成:对每个采样点生成包含视图、角度、深度全组合的候选抓取姿态(共 种)。
物理过滤:通过IsaacGym仿真验证抓取稳定性,利用V-HACD算法将模型分解为凸包以支持碰撞检测。仅保留经过60度摆臂测试后仍保持接触的抓取姿态。
实验对比
实现细节
图像编码器:采用在ImageNet预训练的ResNeXt模型,训练时冻结除最后一层外的参数。
优化器:AdamW,初始学习率0.001,每5000次迭代衰减0.5倍,批量大小16(NVIDIA A100)。
超参数:输入特征维度 ( D=32 ),潜在特征维度 ( D'=192 ),3D遮挡场维度 ( D''=16 ),体素细分块数 ( B=8 )。
评估指标
3D重建:使用 Chamfer距离(CD)、F1分数(阈值1cm)和法向量一致性(NC)衡量重建精度。
抓取预测:采用GraspNet-1B基准的平均精度(AP),计算摩擦系数 ( ) 下的平均精度。
主要结果
3D重建性能
如表2所示,ZeroGrasp在GraspNet-1B和ReOcS数据集上均优于MinkowskiNet、OCNN等稀疏体素重建方法,尤其在困难遮挡场景下,CD误差降低26%,F1分数提升4.7%。图6的定性结果显示,模型在物体间遮挡区域的重建细节显著优于基线方法。


抓取姿态预测
在GraspNet-1B基准测试中,ZeroGrasp在“已见”“相似”“新物体”三类场景中均取得最高AP值。预训练于ZeroGrasp-11B并微调后的模型(Ours+FT)进一步提升性能,新物体场景AP达28.49,较基线GSNet提升17.3%。图7显示,模型在遮挡和截断区域仍能输出高精度抓取姿态。

消融实验


表4的消融结果表明:
多物体编码器和3D遮挡场分别使重建CD误差降低18%和13%,证明物体间关系建模对复杂场景重建的重要性。
接触约束和碰撞检测使抓取AP提升7.8%和21.2%,基于重建的碰撞检测较传统深度图方法显著更优(AP提升10.6%)。
移除CVAE导致重建精度下降,说明概率建模对单视图不确定性的有效处理。
真实机器人实验
使用Franka Panda机器人和Robotiq 2F-85抓手进行5场景测试,每个物体最多尝试3次抓取。ZeroGrasp的成功率达75%,显著高于基线OCNN的56.25%,验证了模型在真实环境中的泛化能力(实验场景如图8所示)。

参考
[1] ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com