突破机械臂学习的瓶颈:结合导航与静态数据训练

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)最新顶会论文计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

e47b171af616ae5d62162851bedb590d.jpeg

论文题目:Pushing the Limits of Cross-Embodiment Learning for Manipulation and Navigation

作者:Jonathan Yang, Catherine Glossop等

作者机构:University of California, Berkeley等

论文链接:https://arxiv.org/pdf/2402.19432.pdf

项目主页:https://extreme-cross-embodiment.github.io/

最近在机器人技术和模仿学习领域,通过利用各种实体的数据训练大规模基础模型取得了显著进展。在这项工作中,研究了在异构实体的背景下,即使在看似非常不同的领域,如机器人导航和操作,也可以在训练数据中为同一模型提供好处的问题。他们训练了一个单一目标条件策略,能够控制机械臂、四轴飞行器、四足动物和移动基地。然后,通过将导航和操作框架为一个单一的目标达成任务,调查了在这些实体上导航和操作之间可以发生多少转移。他们发现,与导航数据联合训练可以增强配备腕部摄像头的目标条件操作的鲁棒性和性能。然后,他们将仅从导航和静态操作数据中训练的策略部署在一个移动操作器上,表明它可以以零-shot方式控制一个新的实体。这些结果表明,大规模机器人策略可以从收集的各种实体的数据中受益。

9bb8636ded58aa376291e2741c60932c.png

读者理解:

这篇文章探讨了异构跨实体学习的概念和方法,旨在突破机器人学习中不同实体(如导航平台和机器人手臂)之间的界限。文章首先介绍了目标条件下的模仿学习,并提出了将导航和操作统一为目标达成任务的想法。接着,文章详细阐述了如何将不同机器人任务映射到统一的任务框架中,并通过统一的动作和观察表示来训练跨实体的策略。此外,文章还介绍了如何在不同机器人任务之间实现知识传递,并讨论了在多样性数据集上训练模型的实验结果。最后,文章总结了异构跨实体学习的潜在应用和未来挑战,展望了该领域的发展前景。整体而言,这篇文章提出了一种新颖的机器人学习范式,为解决不同机器人任务之间的学习迁移问题提供了有价值的思路和方法。

d0dfdf815a34cbbdd674780f30e4956c.png

1 引言

近年来机器学习中大规模基础模型的应用,以及机器人领域对大规模数据集的利用。作者指出了现有研究通常限制在相似实体集合上的局限性,与成功的大规模基础模型通常在高度异构的数据上训练的情况形成对比。为了探究在训练广泛能力的“通用”机器人策略时可以包含的实体多样性程度,本文研究了在异构实体背景下,大规模策略是否可以从跨导航和操作的数据中受益。作者还提出了正向转移的可能性,即导航数据可以帮助操作器理解不同姿势之间的空间关系,而操作数据也可以帮助导航器进行物体中心化推理。文章的目标是通过实证研究探讨包含导航数据对机器人操作和反之是否有益处。作者展示了首次结果,表明从许多不同机器人的导航和操作数据中联合训练的大规模策略可以控制机械臂、无人机、四足动物、移动基地和移动操作器。作者最终展示了我们的策略可以推广到两个新的机器人:移动操作器和四旋翼飞行器,而不需要任何特定于这些实体的数据。

751f5298e1d2039bf965da399a95d648.png

2 准备

本节介绍了在目标条件模仿学习的背景下研究异构跨实体机器人学习的内容。首先定义了数据集De,包含了关于实体e的多个演示,每个演示包含了一系列观察和动作。目标是训练一个策略,使得在给定当前观察和目标观察的情况下,能够输出控制特定实体的动作。接着介绍了目标条件操作和视觉导航的概念。在目标条件操作中,策略需要学习输出一系列动作,这些动作转换为关节速度并提供给低层控制器。操作数据集通常包含远程操作演示,这些演示来自远程控制器、VR头盔或触觉设备,不同的操作模态可能导致动作选择的差异。在视觉导航中,机器人代理需要移动到一个目标,同时避开障碍物,但不会获得地面真实定位信息或GPS读数,需要根据观察历史和目标图像输出航点或速度。此外,代理还会预测一个距离函数,用于确定当前观察和目标之间的距离。在评估时,机器人会获得一个拓扑地图,代理需要确定一个可行的子目标,并确定如何移动到这个子目标。

a086ce842dd2c04ccfe92529ed0bef82.png

3 异构跨实体学习

  • 实验设置

作者的实验基于自己的小型操纵数据集和来自OXE的9个操纵数据集以及8个导航数据集。为了保持平衡,将导航数据和操纵数据的比例设定为50:50。作者对导航数据进行了加权,以使其在数据混合中的比例达到50%,这有助于确保模型对两个领域的适应能力均衡发展。作者的操纵数据集包括OXE的Bridge、Fractal、MLP、Temporal、Taco Play、Jaco Play、Roboturk、NYU Door Opening、Viola、Berkeley Autolab UR5和Toto数据集,而导航数据集包括GNM的GO Stanford、SCAND-S/J、RECON、Cory Hall、Seattle和TartanDrive数据集,以及SACSoN和Berkeley Deep Drive数据集。

  • 数据后处理

作者对操纵数据集进行了坐标系的对齐,以确保各个数据集中的动作坐标系一致。由于OXE数据集中的机器人控制方案可能导致维度0表示机器人向左、右或前进,我们通过手动采样(观察、动作、下一个观察)对数据集进行了校正,以使动作的每个维度对应于执行器末端执行器的相同方向。对于与作者操纵数据集的坐标系不对齐的坐标系,作者交换了动作的维度和符号,以使其更一致。对于操纵数据,作者使用了7维动作空间,其中零索引维度为δ笛卡尔动作,3-5维为δ旋转,第6维为夹爪的开合。

  • 策略架构

作者的模型采用了一个简单的Transformer骨干网络。作者的模型处理观测数据时使用EfficientNet ConvNets编码器,在动作输出方面使用了扩散策略,以应对人类演示数据中的噪声以及不同策略可能存在的情况。此外,作者还结合了历史信息,并预测未来的动作,将作者的策略参数化为动作在时间上的条件概率。作者的异构跨实体模型由五个不同的组件组成:两个观测编码器、一个Transformer、一个扩散策略动作头和一个用于导航的MLP距离预测头。作者通过EfficientNet-b5编码器对观察历史进行编码,然后将当前观察和目标观察与另一个EfficientNet-b5编码器以通道方式进行串联。最后的嵌入被串联并馈送到Transformer中,以获得动作和距离预测。作者的整体目标是这两个损失的加权组合,其中扩散去噪损失和距离预测损失。作者的实验表明,在某些领域中,与第三方图像共同训练可以极大地提高策略的成功率。

844ce70852b744d60a0e1955fd27eeb2.png

4 实验

  • 实验目标 本次实验旨在评估异构跨实体策略在解决真实世界的操纵和导航任务中的性能,涉及多种机器人实体。此外,作者还旨在探究这些实体之间是否可以进行知识转移。具体来说,作者试图回答以下问题:

单一目标条件策略是否能够成功控制各种不同的导航和操纵机器人实体?与导航数据联合训练是否能够为操纵策略提供泛化优势?导航数据如何帮助操纵器泛化?什么样的导航数据能够更好地转移到操纵任务中?与操纵数据联合训练是否能够为导航策略提供泛化优势?异构跨实体策略是否能够零样本泛化到新的实体上?

  • 实验设计

作者评估了五种低成本、开源的机器人操纵器和移动机器人,包括一个移动操纵器。作者设计了五项操纵和导航任务,以测试导航数据对操纵器的泛化效果,并在两个新颖的导航位置上评估我们的导航策略。

  • 实验结果

实验结果表明,作者的策略在解决异构跨实体学习任务方面表现出色。作者的策略成功控制了多种机器人实体,包括机器人臂、四轴飞行器和四足动物。通过与导航数据的联合训练,作者的操纵任务在稳健性和性能方面得到了提升。

40248fbe2761c1a18585f8d4880bfd0e.png

5 结论

本篇论文旨在研究跨实体学习中数据集多样性的影响,通过将导航和操作任务投影到统一的目标达成框架中,探讨了提高学习行为在不同机器人实体间转移能力的可能性。研究表明,使用异构跨实体策略可以有效控制各种不同机器人(如机械臂、轮式和腿式移动平台、无人机和移动操纵器)在各种真实环境中的表现。通过超过1000次实验,论文得出了几个重要结论:1)与仅使用操作数据训练相比,与所有操作和移动数据联合训练的策略在操作任务上平均提高了20%,在导航任务上提高了5-7%。2)通用操纵代理可以从导航数据集中获得感知多样性和空间关系的丰富信息,而通用导航代理可以从操作数据集中获得物体中心交互的丰富信息。尽管存在一些局限性,如需要扩展支持不同自由度的系统和其他任务模式的实现,但这些结果表明,在看似不同的机器人实体之间存在有价值的信息传递。未来的改进将使跨实体训练更加有用,朝着实现未来机器人实体之间更大协同性的目标迈进,朝着一个真正的“机器人基础模型”的目标迈进,这个模型可以利用所有机器人的数据,并可以直接控制任何机器人。

3a9ee12da3dec7520d1fcd74b84d5f9d.png fb69c2e891cd8dfc8d11980ec2b618eb.png

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

aeab56b15e5f1fa55e0a1ecb099b1121.png
▲长按扫码添加助理
3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

00e92c212a744c7a82c7b93f7f83c124.jpeg
▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等

f5cc5fc1af6bff02cacccec620533f49.jpeg
▲长按扫码学习3D视觉精品课程
3D视觉相关硬件
图片说明名称
0492872cd9709125e7f3abb9da99fa9e.png硬件+源码+视频教程精迅V1(科研级))单目/双目3D结构光扫描仪
b90847be5e1630318c893ad2abc918b7.png硬件+源码+视频教程深迅V13D线结构光三维扫描仪
3524447682314b0b080b7fa3431504da.png硬件+源码+视频教程御风250无人机(基于PX4)
3addf0f292ee1a7f8ccf571645c1bff3.png配套标定源码高精度标定板(玻璃or大理石)
添加小助理:cv3d007或者QYong2014 咨询更多

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

outside_default.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值