点击下方卡片,关注“具身智能之心”公众号
作者丨Yu Qi等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
写在前面&出发点
三维装配任务,如家具组装和零部件装配,在日常生活中起着至关重要的作用,也是未来家用机器人必备的技能。现有的基准测试和数据集主要集中在组装几何碎片或工厂零件上,难以应对日常物体交互和装配的复杂性。为了填补这一空白,我们提出了2BY2,这是一个大规模的日常成对物体装配注释数据集,涵盖18个细粒度的任务,反映了现实生活场景,如插头插入插座、花瓶插花、面包放入烤面包机等。2BY2数据集包含1034个实例和517对带有姿态和对称注释的物体,这要求相关方法在对齐几何形状的同时,还要考虑物体之间的功能和空间关系。利用2BY2数据集,我们提出了一种基于等变特征的两步SE(3)姿态估计方法来处理装配约束。与以往的形状装配方法相比,方法在2BY2数据集的所有18个任务中均取得了最先进的性能。此外,机器人实验进一步验证了我们的方法在复杂三维装配任务中的可靠性和泛化能力。
背景介绍
装配任务无处不在,比如组装家具、修理家用电器或组装电子产品。要成功完成这些任务,需要对成对物体之间的空间关系进行精确推理。机器人要想在这些活动中提供帮助,就需要准确估计每个物体的6D姿态,即物体在空间中的方向和位置。这种能力对于家用机器人协助人类完成各种任务至关重要,因为它能让机器人与周围环境进行有意义的互动。
日常物体的成对装配不仅需要考虑物体之间的几何约束和空间关系以实现精确对齐,还需要具备一定的泛化能力。现有的解决装配问题的方法和基准测试,通常侧重于匹配局部几何形状,在需要语义和空间对齐的日常装配场景中,往往表现不佳。这是因为它们主要在由大规模几何碎片组成的现有装配数据集上进行训练和测试,如Breaking Bad和Neural Shape Mating。与专注于拼接物体碎片的现有装配任务相比,日常成对装配任务更具挑战性,在人类生活中也具有更大的实际意义。
为了弥合这一差距,这里引入了2BY2数据集,首个大规模的日常成对装配数据集,包含18个细粒度的任务。与以往的数据集和基准测试相比,2BY2数据集包含1034个实例和517对带有姿态和对称标注的物体,涵盖了各种反映日常场景的成对装配任务,这些任务要求相关方法在对齐几何形状的同时,还要考虑物体之间的功能和空间关系。
基于这个数据集,我们提出了一种用于装配任务的两步成对网络架构。模仿人类的装配过程,例如我们会先把花瓶放在桌子上,然后再插花。我们的方法通过逐步预测每个物体的姿态,将它们装配到预定义的规范空间中,规范空间是指符合人类世界原则的标准坐标系。该网络利用自定义的两尺度向量神经元DGCNN编码器和球形卷积,从点云输入中提取SE(3)等变和SO(3)不变特征。此外,还使用了特征融合模块以及两步训练和评估策略来提高姿态预测的准确性。
在2BY2数据集的18个任务上对我们的方法进行评估,以证明其在多任务物体成对装配预测方面的有效性。与现有基线方法相比,我们的方法在平移均方根误差(RMSE)上平均提高了0.046,在旋转均方根误差上平均提高了8.97。此外,我们在三个多类别任务(即盖子覆盖、插入和高精度放置)以及“所有任务”上验证了方法的有效性。此外,真实世界的机器人实验验证了方法的实际适用性。
主要贡献如下:
引入了2BY2,这是首个大规模的日常成对物体装配数据集。通过为18个细粒度任务中的517对物体提供全面的姿态和对称注释,2BY2突破了现实世界三维装配挑战的界限,为成对装配任务建立了新的基准。
两步成对SE(3)姿态估计方法利用等变几何特征,与现有形状装配方法相比表现更优,显著降低了平移和旋转误差,提高了6D姿态估计的准确性。
方法在基准测试中取得了最先进的性能,真实世界的机器人实验也证明了其能力,为机器人通过成对物体装配进行操作提供了一种通用的解决方案。
相关工作介绍
1)物体装配基准测试和数据集
物体重新装配在计算机视觉和机器人领域催生了各种数据集。在计算机视觉领域,像AutoMate和JoinABLe这样的数据集专注于利用几何线索重新组装碎片,而早期的数据集在规模上存在限制。最近的研究成果,如Neural Shape Mating和Breaking Bad,通过参数化分割生成大规模的破碎物体数据。在机器人领域,Factory、RLBench和RoboSuite等基准测试缺乏多样化的形状和不同初始姿态下的装配任务。相比之下,我们的数据集涵盖了3个类别和18个装配任务中的500多对不同物体,为成对物体装配提供了全面的基准测试,有助于开发适用于现实应用的通用方法。
2)三维形状装配
三维形状装配,也称为零件装配,涉及从碎片中重建物体,如破碎的雕塑或拆卸的家具。现有方法使用图形模型和神经网络来捕捉几何和语义关系。一些方法专注于姿态估计和零件装配,而不依赖预定义的语义信息。少样本学习已被应用于装配任务,拼图技术则利用形状完成策略。最近的研究利用扩散模型来优化装配姿态或点云。相比之下,我们的方法引入了一种两步成对网络,用于逐步装配,专门针对成对物体对齐。
3)机器人操作中的6D姿态估计
6D姿态估计在机器人学和计算机视觉中对于在非结构化环境中进行物体交互至关重要。早期基于手工特征的方法在杂乱场景中表现不佳,而基于卷积神经网络(CNN)的方法虽然性能有所提升,但泛化能力不足。域随机化通过改变合成数据集来增强模型的鲁棒性。在装配任务中,6D姿态估计有助于为预定义物体进行操作规划。与其他方法类似,我们的方法利用等变特征进行高效的6D姿态学习,提高了泛化能力。

2BY2数据集
1)2BY2数据集概述
这里提出了首个用于日常场景的大规模三维成对物体装配数据集,并对每对物体进行了详细注释。数据集中的网格模型来自3D Warehouse、SAPIEN PartNet-Mobility、Google SketchUp 3D Challenge和Objaverse。这些网格模型经过手动配对、清理、标注和统一缩放。2BY2数据集包含517对独特的物体,涵盖三个主要任务:盖子覆盖、插入和高精度放置,并进一步细分为多个子类别。
2)数据标注
为确保数据集的高质量和可靠性,对收集到的网格模型进行了系统的清理和标注。首先手动对网格进行分割、整合和配对,并将它们分类为物体B和物体A。物体B是基础或接收组件,如螺母、花瓶、邮箱;物体A是适配组件,如螺栓、花朵、邮件。这种分类符合人类直观的装配逻辑,也支持我们网络的预测策略,比如先定位螺母再安装螺栓。使用自动化脚本对网格进行统一缩放,并将每对物体对齐到世界坐标系中的规范姿态,即将物体稳定放置在XY平面上,其最低点对齐到Z=0。例如,瓶子和花瓶就像放在桌子上一样进行对齐,邮箱则像放在地面上一样。
在生成点云时,使用蓝噪声采样方法从每个网格表面均匀提取维度为(1024, 3)的点云。还对每个物体类别标注了其固有的对称属性,特别考虑了沿Z轴的旋转对称,如瓶子、螺丝,以及沿X轴的镜像对称,如面包、信件。

3.3. 数据划分和任务多样性分析
提出的数据集在各个类别中提供了多样化的任务覆盖,每个类别又进一步细分为特定的子类别。每个类别中的物体在形状、大小和类型上各不相同。为增强泛化能力,测试集包含了训练集中未见过的几何形状的物体。我们还计算了训练集和测试集点云之间的 Chamfer 距离来量化几何差异。这种多样性确保了模型在现实场景中的泛化能力和适用性,有助于进行鲁棒的三维匹配和装配任务。


问题公式化
该任务以两个点云作为输入,分别为 和 ,每个点云的维度为(1024, 3)。这些点云分别来自预定义规范姿态的物体 和 ,并经过SO(3)旋转随机增强和平移至质心。期望的输出是两个单独的SE(3)姿态,用于将 和 装配到规范姿态。
网络方法介绍

1)两步成对网络架构
为了有效地学习成对物体装配,我们提出了一种两步成对网络架构,包含两个分支:分支B( )和分支A( )。分支B使用两尺度向量神经元DGCNN编码器预测 (如插座)的姿态,提取SE(3)等变特征,记为 ,然后通过基于多层感知器(MLP)的姿态预测头预测平移和旋转。变换后的 和插入物体 (如插头)随后被输入到分支A,分支A提取SE(3)等变特征 和SO(3)不变特征 。这些特征通过元素相乘进行融合,使 能够利用两个物体的信息预测 的姿态。这种架构通过利用共享特征表示确保了几何对齐和匹配,同时减少了特征干扰。
两步成对网络受人类处理成对装配任务方式的启发。例如,在插花时,人们通常会先将花瓶正确定位,然后再插入花朵。同样,将信封放入邮箱时,需要先确定邮箱插槽的姿态。通过模仿这种顺序策略,我们的模型模拟了人类的决策过程,使装配任务更高效、准确。
2)两尺度SE(3)等变和SO(3)不变特征提取
采用两尺度SE(3)向量神经元DGCNN,这是原始向量神经元DGCNN的增强版本,作为编码器来提取SE(3)等变和SO(3)不变特征。这种架构利用等变性提高模型的样本效率,同时结合两尺度信息融合机制在两个不同尺度上捕捉几何特征。
SE(3)等变结合了SO(3)旋转和T(3)平移等变:旋转等变确保网络输出随输入旋转,平移等变则相应地移动输出。SO(3)不变性意味着网络输出在任何三维旋转下保持不变。通过利用SE(3)等变,模型在样本效率和泛化能力上得到提升,这在物体可能以任意姿态出现的装配任务中尤为有利。
向量神经元网络将传统神经元从标量扩展到三维向量,设计了基于向量的卷积层和诸如池化、ReLU等非线性函数,以支持SO(3)等变和SO(3)不变特征提取。向量神经元网络在向量空间中运行,能够捕捉更丰富的几何关系,为下游任务提供更稳健的特征表示。
这里提出的两尺度向量神经元DGCNN用于提取SE(3)等变和SO(3)不变特征 、 和 。编码器包含两个具有不同K值的分支,每个分支由多个向量神经元卷积层和池化层组成。两个分支提取的特征连接后,再通过一个额外的向量神经元卷积层进一步处理。点云 和 分别独立处理,形成通过两个分支传播的图。
我们编码器的SO(3)旋转等变由向量神经元层的固有等变属性保证。为实现T(3)平移等变,对于输入点云 , ,计算其质心 ,并将输入点云转换为 。这样,我们的预测就是T(3)平移等变的。
两尺度向量神经元DGCNN采用双K近邻(KNN)值在两个不同尺度上提取特征,增强了捕捉局部和全局信息的能力。这种金字塔结构使网络能够同时把握物体的整体形状和细粒度细节,提升了特征提取效果。
3)跨物体融合模块
在 中使用逐点相乘作为跨物体融合模块。通过将 和 相乘来融合 和 的特征,使 中的每个点都具有 和 的几何特征。这种方法在保留 旋转等变性的同时,将 的几何特征整合到每个点中。
4)姿态预测
在两个分支中,分别使用两个多层感知器作为姿态预测头,分别预测平移 和旋转 。与在单个预测头中同时预测平移和旋转相比,这种方法有助于缓解两个分量收敛速度不同的问题。
5)训练和评估策略
对网络采用单独的训练和评估策略。为了最小化 姿态预测误差对 的影响,独立训练 和 。在训练 时,使用规范姿态下的 (即 的真实点云)来训练模型。在测试时,首先预测 的姿态,然后使用变换后的 和初始的 来预测 的姿态。这种分阶段的两步训练和评估策略减少了物体姿态联合训练导致的误差,确保了更准确的预测。
6)损失函数
为了训练网络稳健地预测姿态,使用以下公式作为损失函数:
对于预测的姿态平移 、旋转 和真实姿态平移 、旋转 ,使用 损失计算 :
对于旋转,使用测地距离,它测量旋转流形上两个旋转之间的最短路径,提供平滑且有界的角度误差,确保稳定的梯度,准确实现精确的旋转对齐:
实验分析
这里对两步成对网络架构进行全面评估和分析,主要回答以下问题:
与现有的基于匹配、图网络和扩散的装配方法等基线方法相比,网络在2BY2任务上表现如何?
网络在2BY2数据集中的多个任务上的泛化能力如何?它能有效地同时处理各种不同的任务吗?
网络能泛化到现实世界的机器人任务中吗?
1)2BY2数据集主要实验
实验设置
任务:将2BY2数据集中的18个装配任务分别划分为训练集和测试集,对比提出的方法与各种基线方法的性能。为进一步评估其跨任务泛化能力,在诸如盖子覆盖、插入和高精度放置等任务,以及“全部任务”(指处理整个数据集中的所有任务)上进行了额外实验。
评估指标:遵循Breaking Bad和Neural Shape Mating等数据集的指标,使用均方根误差(RMSE)来评估预测的SE(3)姿态的旋转和平移。旋转使用考虑对称性的欧拉角表示。
训练参数:将bs大小设置为4,Adam优化器的初始学习率设置为1e-4。训练模型1000个iters,以使其充分收敛。
基线方法
将方法与SE-3 assembly、Puzzlefusion++、Jigsaw和Neural Shape Mating进行比较。
SE-3 Assembly提出一种网络架构,利用SE(3)等变性来考虑多部件相关性的表示,并联合预测每个部件的姿态。
Puzzlefusion++提出一种自动聚合的3D断裂装配框架。它使用扩散模型进行6自由度对齐,使用transformer模型进行验证,迭代地对齐和合并碎片。
Jigsaw利用全局和局部几何的分层特征来匹配和对齐断裂表面,并恢复每个部件的全局姿态以还原底层物体。
Neural Shape Mating利用PointNet进行特征编码,使用transformer进行特征融合,以学习装配部件之间的相关性,从而能够联合预测它们的姿态。
2BY2基准测试结果与分析
表3展示了方法与所有基线方法相比的定量性能。结果表明,在18个细粒度的装配任务上均优于基线方法,平移RMSE平均提高了0.046,旋转RMSE平均提高了8.97。

此外,在定义的三个跨类别任务(盖子覆盖、插入和高精度放置)上评估了我们的方法,并取得了最先进的性能。而且,在最全面的“全部任务”中,在平移上比基线方法提高了0.123,在旋转上提高了10.90,展示了在不同任务和物体形状上强大的泛化能力。同时,与基线方法的比较证实了我们任务的严格性和挑战性。在插头和钥匙等具有挑战性的任务上的结果,突出了框架在复杂场景中的有效性。
我们分析认为,设计的网络性能优越,是因为采用了逐步分别预测两个物体姿态的方法。这避免了姿态误差相互干扰,而这种干扰在其他基线方法同时预测两个姿态时经常发生。此外,编码器的设计使网络对旋转和平移的细微变化更加敏感,从而带来更好的性能。
2)真实世界机器人实验
真实世界机器人实验设置:如图5所示,使用配备Robotiq 2F - 85夹爪的UR5机械臂进行真实世界机器人实验。选择了杯子、花朵、面包和插头这四个任务,以展示模型在未见过的真实世界物体上具有很强的泛化能力。

将物体以随机初始姿态放置在场景中,并扫描它们以获取点云。使用在2BY2数据集的选定数据上预训练的模型,我们预测每个物体的姿态。然后应用手动设计的抓取姿态来抓取每个物体,并根据预测的姿态,机械臂规划轨迹以完成装配。以SE(3) assembly作为基线方法,并在10种不同的初始姿态下测试我们的方法。如表4所示,我们的方法明显优于基线方法。


消融研究

最后总结下
2BY2在弥合基于几何的装配任务与日常物体装配之间的差距方面迈出了重要一步。通过为18个细粒度任务中的517对物体提供姿态和对称注释,2BY2为3D装配挑战设立了新的基准。两步成对SE(3)姿态估计框架利用等变特征,与现有方法相比,在减少平移和旋转误差方面表现更优。机器人实验进一步验证了该方法在实际3D装配场景中的泛化能力。总之,2BY2提供了一个全面的基准和一个有效的框架,旨在启发和支持在机器人操作中更具泛化性的解决方案。
参考
[1] Two by Two : Learning Multi-Task Pairwise Objects Assembly for Generalizable Robot Manipulation
论文辅导计划
具身智能干货社区
具身智能之心知识星球是国内首个具身智能开发者社区,也是最专业最大的交流平台,近1000人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、大模型、视觉语言模型、强化学习、具身智能感知定位、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近40+开源项目、近60+具身智能相关数据集、行业主流具身仿真平台、强化学习全栈学习路线、具身智能感知学习路线、具身智能交互学习路线、视觉语言导航学习路线、触觉感知学习路线、多模态大模型学理解学习路线、多模态大模型学生成学习路线、大模型与机器人应用、机械臂抓取位姿估计学习路线、机械臂的策略学习路线、双足与四足机器人开源方案、具身智能与大模型部署等方向,涉及当前具身所有主流方向。
全栈技术交流群
具身智能之心是国内首个面向具身智能领域的开发者社区,聚焦大模型、视觉语言导航、VLA、机械臂抓取、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向,目前近60+技术交流群,欢迎加入!扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)。