成功率极高！北大最新DexGraspVLA：首个灵巧抓取的分层VLA

最新推荐文章于 2025-05-14 00:15:00 发布

自动驾驶之心

最新推荐文章于 2025-05-14 00:15:00 发布

阅读量616

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247657082&idx=4&sn=76bd8f469cc5adec23203ff59e676255&chksm=cf6686e28bbe9b46b3318bbac59be8667f3448b0ecfe8a4fde17bf114fced012b05bc9acf1e8&scene=126&sessionid=0

版权

点击下方卡片，关注“具身智能之心”公众号

作者 | Yifan Zhong等编辑 | 具身智能之心

本文只做学术分享，如有侵权，联系删文

>>点击进入→具身智能之心技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

灵巧抓取仍然困难

灵巧抓取在机器人领域中仍是一个基础且具有挑战性的问题。通用机器人必须能够在任意场景中抓取各种物体。然而，现有研究通常依赖特定假设，如单物体设置或有限环境，导致泛化能力受限。我们提出的解决方案是DexGraspVLA，一个分层框架，它将预训练的视觉-语言模型用作高级任务规划器，并学习基于扩散的策略作为低级动作控制器。其核心在于迭代地将多样的语言和视觉输入转换为域不变表示，由于域转移问题得到缓解，模仿学习可在此基础上有效应用。因此，它能够在广泛的现实场景中实现强大的泛化。值得注意的是，方法在 “零样本 ”环境下，面对数千种未见过的物体、光照和背景组合时，成功率超过90%。

实证分析进一步证实了模型内部行为在环境变化中的一致性，从而验证了设计并解释了其泛化性能。希望这项工作能为实现通用灵巧抓取迈出一步。演示和代码链接：https://dexgraspvla.github.io/。

如果您还不知道怎么入门VLA，也欢迎学习我们的课程：国内首个系统面向工业与科研的具身智能VLA课程！

行业介绍

灵巧的多指手作为多功能机器人末端执行器，在各种操作任务中展现出了卓越的能力。在这些能力中，抓取是最基本的前提条件，但它仍然是最具挑战性的问题之一。现有的灵巧抓取方法主要在孤立物体或简化设置下进行评估。然而，实际应用需要机器人具备更通用的抓取能力，以便在工业制造和家庭环境等各种场景中可靠地发挥作用。然而，开发通用的灵巧抓取能力面临着多方面的挑战。在物体层面，策略必须能够泛化到具有不同几何形状、质量、纹理和方向的物体上。除了物体特征外，系统还必须对各种环境因素（如光照条件、背景复杂度和潜在干扰）具有鲁棒性。更具挑战性的是，多物体场景引入了额外的复杂性，需要复杂的推理能力。例如，在杂乱或堆叠的环境中，规划抓取所有物体的最佳顺序成为一项关键的认知任务，这远远超出了简单的抓取执行范畴。

传统的灵巧抓取方法遵循两阶段流程：首先从单帧感知中预测目标抓取姿态，然后执行开环运动规划以达到该姿态。然而，这种方法受到精确相机校准和机械精度要求的严重限制。端到端方法，如模仿学习和强化学习，通过根据实时感知反馈不断调整动作，实现闭环抓取，提供了更强大和自适应的解决方案。近年来，强化学习在机器人系统中的应用取得了显著进展。借助大规模并行模拟，强化学习使机器人能够在模拟环境中进行广泛训练，然后将学习到的策略部署到现实世界中。尽管取得了这些进展，但现实世界物理参数的复杂性在模拟建模中带来了巨大挑战，导致了不可避免的模拟到现实的差距。同时，研究人员探索了模仿学习方法来学习操作技能。这些方法通过远程操作收集人类演示数据，并使用监督学习直接学习从原始感知输入到机器人控制命令的映射。然而，这种方法在演示数据之外的泛化能力往往较差。由于通用抓取需要处理各种物体和环境，收集所有情况的演示数据并不现实。因此，关键挑战在于如何有效地利用演示数据实现更广泛的泛化。

视觉和语言基础模型的迅速出现为机器人操作带来了有前景的机遇。这些模型在预训练过程中利用了大量互联网规模的数据，对视觉和语言输入表现出卓越的场景理解和泛化能力。虽然直接让这些模型生成机器人控制命令看似直观，但这种简单策略面临着根本性的限制。由于在训练过程中缺乏物理交互数据，这些模型的空间智能有限。另一种方法是将视觉-语言模型（VLMs）集成到机器人控制策略中，以端到端的方式对它们进行训练。然而，这种范式通常需要大量手动收集的演示数据，试图涵盖现实世界的所有多样性和复杂性。即便如此，这些模型在未见过的场景中性能仍会显著下降，并且仍然需要进一步收集数据和微调才能处理新的情况。此外，机器人数据集与大规模预训练语料库之间的巨大差异会导致灾难性遗忘，损害模型宝贵的长程推理能力。有效地利用基础模型的世界知识来增强机器人策略的泛化能力仍然是一个挑战。

DexGraspVLA是第一个用于通用灵巧抓取的分层视觉-语言-动作（VLA）框架，它整合了基础模型和模仿学习的互补优势。在高层，它利用预训练的VLM作为任务规划器，用于解释和推理语言指令、规划整体抓取任务并提供监督信号。在这些信号和多模态输入的引导下，基于扩散的低级模块化控制器生成闭环动作序列。DexGraspVLA的核心在于利用基础模型迭代地将多样的视觉和语言输入转换为域不变表示，然后在此基础上高效且有效地应用基于扩散的模仿学习，以捕捉灵巧抓取数据集中的动作分布。因此，训练集之外的新场景不再会导致失败，因为基础模型将它们转换为与训练期间遇到的表示相似的形式，从而使这些场景仍在学习到的策略的域内。这种方法将基础模型广泛的世界知识与模仿学习强大的动作建模能力相结合，从而在实际应用中实现强大的泛化性能。

值得注意的是，DexGraspVLA在杂乱场景中抓取的成功率达到了前所未有的90.8%，涵盖了1287种未见过的物体、光照和背景组合，所有测试均在 “零样本 ”环境下进行。在单物体抓取基准测试中的系统评估表明，DexGraspVLA的综合成功率达到98.6%，比直接从原始视觉输入中学习的现有基线控制器高出至少48%。此外，实证分析表明，DexGraspVLA内部的表示和注意力图在不同环境中保持一致，从而证实了其框架设计的合理性并解释了其性能。这些结果证实，DexGraspVLA可以从少量单领域的人类演示中有效学习，同时可靠地泛化到广泛的现实场景中，这标志着在迈向通用灵巧抓取的道路上迈出了有前景的一步。

问题公式化

我们的目标是开发一种基于视觉的控制策略，用于语言引导的灵巧抓取，并将其公式化为一个顺序决策问题。最初，会给出一个语言指令l，例如 “抓住玩具”，以直接指定目标物体。在每个时间步t，策略会从手腕摄像头接收第一视角图像（H和W分别表示图像的高度和宽度）、从头部相机接收第三视角图像，以及机器人的本体感受信息，其中包括七个手臂关节角度和六个手部关节角度。基于这些观察，机器人通过从动作分布中采样，产生一个动作，其中和分别表示手臂和手部的目标关节角度。这个过程一直持续到达到终止条件。机器人会收到一个二进制奖励，用于指示它是否成功完成了指令l。策略π的目标是最大化预期奖励。

更一般地，我们考虑用户提示P可能是一个涉及多个抓取过程的长期任务的情况，例如 “清理桌子”。这就要求策略π对提示进行推理，将其分解为单个的抓取指令，并按顺序完成这些指令。

DexGraspVLA方法

1）DexGraspVLA框架

如图2所示，DexGraspVLA采用分层模块化架构，由一个规划器和一个控制器组成。下面我们将解释各部分的设计。

规划器：为实现通用灵巧抓取，模型需要能够处理多模态输入、进行视觉定位，并对用户提示进行推理。基于视觉语言模型（VLMs）的最新进展，采用现成的预训练Qwen-VL-Chat作为高级规划器，来规划和监控灵巧抓取工作流程。给定用户提示P，规划器根据头部摄像头的观测结果对执行计划进行推理。具体而言，如果P是一个涉及多个抓取步骤的长周期任务描述，比如 “清理桌子”，规划器会考虑桌子上物体的位置和方向，并提出一个合适的抓取指令作为第一步，例如 “抓取饼干”。否则，如果P直接针对一个物体进行抓取，规划器就将其视为指令l。

对于每个指令l，规划器在初始时刻，通过在头部摄像头图像中标记目标物体的边界框来引导低级控制器。虽然语言指令的表述和内容因用户和情况而异，即表现出领域差异性，但边界框是一种一致的物体定位格式，无论语言和视觉输入如何变化，都能实现领域不变性。因此，这种转换减轻了控制器的学习难度。

在接收到边界框后，控制器开始执行任务。在此过程中，规划器以1Hz的频率查询当前头部图像，以监控进展情况。如果发现机器人成功抓取物体，规划器会执行预设的放置动作，将物体放入袋子中，然后将机械臂和手重置为初始状态。之后，规划器根据提示和视野中剩余的物体推理，提出新的抓取指令，直到提示P完全完成。另一方面，如果控制器未能抓取目标物体，规划器会重置机器人，并根据当前物体状态用新指令重新初始化抓取循环。

控制器：基于目标边界框，控制器旨在在杂乱环境中抓取目标物体。我们将这个边界框作为输入，输入到SAM中，以获得目标物体的初始二进制掩码，然后使用Cutie随时间连续跟踪该掩码，在每个时刻t生成。这确保了在整个过程中，在杂乱场景中都能准确识别物体。问题在于学习能有效对动作分布进行建模的策略。

为实现通用灵巧抓取能力，系统必须在各种真实场景中有效泛化。然而，原始视觉输入、的高度可变性给学习关键任务表示带来了根本性挑战。传统的模仿学习方法，即使在物体或环境条件稍有变化的情况下，也往往会惨败。为解决这个问题，我们的解决方案是将可能随领域变化的输入转换为适合模仿学习的领域不变表示。我们认识到，虽然像素级感知可能差异很大，但大型基础模型提取的细粒度语义特征往往更稳健、更一致。因此，我们利用在互联网规模数据上预训练的特征提取器（如DINOv2）从原始图像中获取特征。在每个时刻t，我们获得头部摄像头图像特征：

和腕部摄像头图像特征：

其中，、、、分别表示头部和腕部特征序列的长度和隐藏维度。这些提取的特征对干扰视觉因素的变化相对不变。

到目前为止，通过利用基础模型，原始的语言和视觉输入，包括指令l和图像、，已被迭代转换为领域不变表示，包括掩码和特征、。这为模仿学习奠定了基础。现在，我们要学习基于这些表示预测H步长动作块的策略。为将物体掩码与头部摄像头特征融合，我们使用随机初始化的ViT将投影到头部图像特征空间，生成。然后，我们将和按补丁拼接，形成：

随后，使用单独的多层感知器（MLP）将、腕部摄像头特征和机器人状态映射到一个公共嵌入空间，得到、和。然后将这些嵌入连接起来，形成完整的观测特征序列：

对于动作预测，我们采用扩散transformer（DiT），遵循扩散策略范式来生成多步动作。在每个时刻t，将接下来的H个动作捆绑成一个块。在训练过程中，随机采样一个扩散步骤，并向中添加高斯噪声，得到带噪动作令牌。形式上：

其中，和是标准的DDPM系数。然后，将与观测特征序列一起输入到DiT中。每个DiT层对动作令牌执行双向自注意力机制，对执行交叉注意力机制，并进行MLP变换，最终预测原始噪声。通过最小化预测噪声与真实噪声之间的差异，模型学习重建真实的动作块。在推理时，通过迭代去噪步骤，从学习到的分布中恢复预期的多步动作序列，从而能够稳健地模仿复杂的长周期行为。还采用滚动时域控制策略，即仅执行预测动作块中的前个动作，然后再生成新的动作块预测，以提高实时响应性。

DexGraspVLA对通过基础模型从领域变化输入中导出的领域不变表示进行模仿学习。这种方法不仅利用了基础模型的世界知识和泛化能力，还有效地捕捉了从这些抽象表示到最终动作输出的映射。

2）数据收集

为训练我们的灵巧抓取策略，手动收集了一个数据集，其中包含2094个在杂乱场景中成功抓取的片段。该数据集涉及36种家用物品，涵盖了广泛的尺寸、重量、几何形状、纹理、材料和类别。每个片段记录了每个时刻t的原始摄像头图像、、机器人本体感受、物体掩码和动作。掩码的标注方式与控制器中的标注方式相同。对于每个物体，将其放置在3×3网格排列的九个位置上，并在每个位置收集多个抓取演示。杂乱场景中的其他物体在不同片段之间随机化。这些演示以典型的人类运动速度进行，每个演示大约需要3.5秒。它们经过严格的人工检查，以确保质量和可靠性。DexGraspVLA控制器在这个数据集上通过模仿学习进行训练。

实验分析

这里全面评估DexGraspVLA的性能。所有实验均在与演示设置不同的机器人和环境上进行。这种 “零样本” 设置比大多数先前依赖少样本学习来实现高性能的模仿学习研究更具挑战性。实验旨在解决以下问题：

DexGraspVLA在杂乱场景中对数千种不同的、以前未见过的物体、光照和背景组合的泛化效果如何？
与不使用固定特征提取器、直接从原始视觉输入中学习的基线方法相比，DexGraspVLA的泛化优势如何？
DexGraspVLA高级规划器在不同场景下的边界框预测准确性如何？
DexGraspVLA在不同环境下的内部模型行为是否一致？

1）实验设置

硬件平台：如图3所示，我们用于灵巧抓取的机器人是一个7自由度的Realman RM75-6F机械臂，搭配一个6自由度的PsiBot G0-R手。安装在机械臂腕部的Realsense D405C摄像头提供第一人称视角，而机器人头部的Realsense D435摄像头提供第三人称视角。待抓取的物体放置在机器人前方的桌子上。机器人的控制频率为20Hz。
基线方法：据我们所知，目前没有现有工作可直接作为比较的基线。大多数灵巧抓取方法无法处理杂乱场景中的语言输入，而现有的接受语言输入的VLA框架与灵巧手不兼容。因此，我们比较以下方法：（1）DexGraspVLA（我们的方法）：DexGraspVLA的完整实现。（2）DexGraspVLA（DINOv2-train）：与我们的方法设计相同，除了两个DINOv2模型是可训练的，而不是固定的。（3）DexGraspVLA（ViT-small）：与我们的方法设计相同，除了两个DINOv2模型被两个小型可训练的预训练ViT（来自Steiner等人的R26-S-32 ResNet-ViT混合模型）取代。根据经验，DexGraspVLA（ViT-small）代表了扩散策略的增强版本。这些方法的实现细节在附录A中提供。在初步实验中，我们发现策略推理中的随机性可能导致失败，通过额外尝试可以克服这些失败。因此，在5.2节中，我们比较DexGraspVLA（Ours@k），k的取值范围为1到3。这些方法与我们的方法相同，只是每个测试分别允许k次尝试。Ours@1等同于我们的方法。请注意，策略在单次尝试中初始失败后的重新抓取是允许的，并且不被视为单独的尝试。

2）大规模泛化评估

任务：我们挑选了360个以前未见过的物体、6种未见过的背景和3种未见过的光照条件。精心选择这些物体，以确保它们涵盖广泛的尺寸、重量、几何形状、纹理、材料和类别，同时也能被我们的灵巧手抓取。图4展示了这种多样性。背景和光照条件也被选择为差异很大的类型。基于此设置，在杂乱场景中设计了三种类型的抓取任务，每个杂乱场景包含大约六个物体：（1）未见物体：在白色桌子上的随机场景中，在白光下抓取一个未见物体。360个未见物体中的每个物体都被抓取一次，总计360次测试。（2）未见背景：我们首先随机选择103个未见物体作为物体子集s。对于每个背景，我们在白光下用子集中的物体随机排列103个杂乱场景。103个物体中的每个物体都被抓取一次，总共进行618次测试。（3）未见光照：对于每种未见光照，我们在白色桌子上用子集中的物体构建103个杂乱场景。我们对103个物体中的每个物体抓取一次，总计309次测试。
指标：如果机器人将物体在桌子上方10厘米处保持20秒，我们认为一次抓取尝试成功。我们将成功率作为评估指标，其定义为成功测试的次数除以总测试次数。我们还报告综合性能，即根据各个成功率的比例进行加权求和。
结果：在表1中展示定量结果。从第一行（“Ours@1”）可以看出，DexGraspVLA在360个未见物体上的单次尝试成功率达到91.1%，在6种未见背景上达到90.5%，在3种未见光照条件下达到90.9%，综合成功率为90.8%。这些结果表明，DexGraspVLA能够准确控制灵巧手从杂乱场景中抓取指定物体，同时对环境变化具有鲁棒性。值得注意的是，尽管评估环境是全新的，任务也是以前未见过的，但DexGraspVLA在没有任何特定领域微调的情况下，始终保持高成功率，突出了其强大的泛化能力。这表明我们的框架大大缓解了模仿学习中长期存在的挑战，即过度拟合单一领域并依赖微调来获得令人满意的性能，这对于广泛的应用可能具有重要意义。我们将在5.5节中进一步分析这种泛化能力的来源。

定性地说，DexGraspVLA学会了灵巧地调整机械臂和手，以适应不同的物体几何形状、大小和位置。虽然物理干扰或不理想的动作偶尔会导致抓取失败，但我们策略的闭环性质有助于根据更新的观测进行重新抓取，从而增强了鲁棒性。该方法还能容忍人为干扰，因为机器人可以跟踪重新定位的物体，直到成功抓取。

从第二行和第三行（“Ours@2”和“Ours@3”）可以观察到，虽然单次尝试中可能会出现随机性和偶然失败，但多次尝试通常会成功，三次尝试时整体性能可提高到96.9%。这表明我们的方法有能力达到更高的成功率。最后，我们的模型平均大约需要6秒来抓取一个物体，这与人类的抓取时间相近，确保了在现实场景中的实际可用性。

我们的大规模评估证实，DexGraspVLA能够稳健地处理各种未见场景，朝着通用灵巧抓取迈出了有意义的一步，并有望在更广泛的现实世界中部署。

3）与未使用固定视觉编码器的基线方法的比较

任务：为系统地比较DexGraspVLA与未使用固定视觉编码器、直接从原始视觉输入中学习的基线方法，我们使用训练数据集中的13个已见物体和8个未见物体进行单物体抓取实验。在桌子上选择五个位置，这些位置既覆盖操作空间，又在机器人的可达范围和头部摄像头的视野内。每个物体放置在这些点上，在每个点上，我们让策略抓取该物体两次。请注意，同一物体在同一点的两次抓取被视为两次单独的测试，而不是同一测试的重复尝试。这种方法定量地考虑了实验中的随机性。总共进行210次测试。这些实验的环境条件是白色桌面和白光。
指标：报告每种方法的成功率。
结果：图5表明，DexGraspVLA在已见和未见物体抓取实验中始终保持超过98%的成功率，显著优于DexGraspVLA（DINOv2-train）和DexGraspVLA（ViT-small）。我们的方法在 “零样本” 测试环境中的综合性能接近完美，这表明DexGraspVLA（我们的方法）不受视觉输入领域转移的影响。我们还注意到，未见物体上的性能甚至略优于已见物体，这再次证实我们的模型学会了完成抓取任务，而不是过度拟合训练集中的已见数据。相比之下，替代设计在新环境中无法正常工作，因为它们直接将原始输入映射到动作，而感知变化很容易使它们超出分布范围。

4）规划器的边界框预测准确性

任务。规划器的边界框预测精度对于抓取操作的成功与否至关重要，因为它决定了控制器的目标。为了评估这一精度，设计了三种类型的任务，这些任务具有不同的环境干扰因素：（1）无干扰（1 种场景）：杂乱的场景布置在白色灯光下的白色桌子上；（2）背景干扰（2 种场景）：杂乱的场景放置在标定板或色彩鲜艳的桌布上，且均处于白色灯光下；（3）光照干扰（2 种场景）：场景设置在一个黑暗的房间里，由台灯或迪斯科灯照明。对于每种场景，我们随机布置五个杂乱场景，每个场景包含六个随机选择的物体，然后记录前置摄像头拍摄的图像。对于每个物体，我们提供一个文本提示，描述其外观和位置，并检查规划器的边界框预测是否准确地标定了目标。总的来说，无干扰任务包含 30 次测试，而背景干扰和光照干扰任务各有 60 次测试，总计 150 次测试。

度量标准。如果一个边界框能够紧密包围目标物体，我们就将其定义为准确的边界框。然后，精度被衡量为准确边界框在所有测试物体中所占的比例。

结果。精度报告见表 2，对于 150 个提示，规划器仅错误标记了一个边界框，而在其他 149 次测试中均取得成功，综合精度超过了 99%。这证明了我们的规划器能够可靠地对用户提示进行视觉定位，并且能够在不同复杂程度的背景和光照条件下为控制器标记出正确的边界框。

5）内部模型行为分析

为了进一步验证我们的设计，通过实证证明了内部模型的行为在各种视觉变化情况下是一致的，并将结果展示在图6中。由于篇幅限制，我们仅展示了每张包含桌面工作空间的图像的相关部分。我们设计了四种截然不同的环境条件：白色桌子、标定板、彩色桌布以及在迪斯科灯光照射下的彩色桌布。在每种环境中，构建了相同的杂乱场景，其中包含九个物体，并让DexGraspVLA执行“抓取中间的蓝色酸奶”这一任务。

尽管图6第一行中的前置摄像头图像看起来差异明显，但第二行中DINOv2的特征却相当一致。这些特征通过将主成分映射到RGB通道来进行可视化，方法与Oquab等人所做的相同。在不同环境下，物体的属性都能稳健地保持并匹配，这从根本上使得在单一数据域上训练的DexGraspVLA具备了泛化能力。第三行展示了Cutie能够准确地追踪物体，为控制器提供正确的引导。基于域不变掩码和DINOv2特征，DiT动作头现在可以预测后续动作。在第四行中，我们对DiT针对前置摄像头图像的所有交叉注意力进行了平均和归一化处理。我们发现，所有的注意力图都表现出相同的行为，即聚焦于目标物体，而不会受到环境的干扰。第五行将注意力图叠加在原始图像上，以确认注意力模式的合理性。因此，我们证实了DexGraspVLA确实将在感知上多样的原始输入转换为不变的表征，在此基础上，它有效地应用模仿学习对数据分布进行建模，这就解释了其卓越的泛化性能。不出所料，它在所有四种环境中都成功抓取到了酸奶。

参考

[1] DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

【具身智能之心】技术交流群

具身智能之心是国内首个面向具身智能领域的开发者社区，聚焦大模型、视觉语言导航、VLA、机械臂抓取、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向，目前近60+技术交流群，欢迎加入！扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

【具身智能之心】知识星球

具身智能之心知识星球是国内首个具身智能开发者社区，也是最专业最大的交流平台，近1000人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、大模型、视觉语言模型、强化学习、具身智能感知定位、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近40+开源项目、近60+具身智能相关数据集、行业主流具身仿真平台、强化学习全栈学习路线、具身智能感知学习路线、具身智能交互学习路线、视觉语言导航学习路线、触觉感知学习路线、多模态大模型学理解学习路线、多模态大模型学生成学习路线、大模型与机器人应用、机械臂抓取位姿估计学习路线、机械臂的策略学习路线、双足与四足机器人开源方案、具身智能与大模型部署等方向，涉及当前具身所有主流方向。