波士顿动力最新！ThinkGrasp：通过GPT-4o完成杂乱环境中的抓取工作

自动驾驶之心

于 2024-09-02 07:31:37 发布

阅读量320

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247626080&idx=3&sn=cf1a2be16228bead5828663fcf6ddbaf&chksm=cf6a6ae998857095a31c26a36f4c24fa9d0f7f409efdf91ea132e308f403c0270a3f4e09cab3&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『具身智能』技术交流群

编辑 | 自动驾驶之心

写在前面&个人理解

在杂乱的环境中，由于遮挡和复杂的物体排列，机器人抓取仍然是一个重大的挑战。ThinkGrasp是一个即插即用的视觉语言抓取系统，它利用GPT-4o的高级上下文推理能力，为杂乱环境制定抓取策略。ThinkGrasp能够有效地识别和生成目标物体的抓取姿态，即使它们被严重遮挡或几乎看不见，也能通过使用目标导向的语言来指导移除遮挡物。这种方法逐步揭露目标物体，并最终在几步内以高成功率抓取它。在模拟和真实实验中，ThinkGrasp均取得了高成功率，并在杂乱环境或各种未见过的物体中显著优于最先进的方法，展示了强大的泛化能力。

行业背景介绍

近年来，机器人抓取领域取得了显著进展，深度学习和视觉语言模型推动了更加智能和适应性强的抓取系统的发展。然而，在高度杂乱的环境中，机器人抓取仍然是一个重大挑战，因为目标物体经常被严重遮挡或完全隐藏。即使是最先进的方法也难以在这种场景下准确识别和抓取物体。

为了应对这一挑战，这里提出了ThinkGrasp，它将大规模预训练的视觉语言模型的强大功能与遮挡处理系统相结合。ThinkGrasp利用像GPT-4o这样的模型的先进推理能力，来获得对环境和物体属性（如锐利度和材料组成）的视觉理解。通过基于结构化提示的思维链整合这些知识，ThinkGrasp可以显著提高成功率，并通过战略性地消除遮挡物来确保抓取姿态的安全性。例如，它优先处理较大且位于中央的物体，以最大化可见性和可接近性，并专注于抓取最安全、最有利的部分，如手柄或平面。与依赖RoboRefIt数据集进行机器人感知和推理的VL-Grasp不同，ThinkGrasp受益于GPT-4o的推理和泛化能力。这使得ThinkGrasp能够直观地选择正确的物体，并在复杂环境中实现更高的性能，正如对比实验所示。

主要贡献如下：

• 开发了一个即插即用的遮挡处理系统，该系统高效地利用视觉和语言信息来辅助机器人抓取。为了提高可靠性，利用LangSAM和VLPart实现了一个健壮的错误处理框架用于分割。GPT-4o提供目标物体的名称，LangSAM和VLPart负责图像分割。这种任务分工确保了语言模型中的任何错误都不会影响分割过程，从而在多样化和杂乱的环境中实现更高的成功率和更安全的抓取姿态。

• 在模拟环境中，通过对具有挑战性的RefCOCO数据集进行了广泛的实验，展示了最先进的性能。ThinkGrasp在杂乱场景中的成功率达到98.0%，并且所需步骤更少，优于先前的方法，如OVGNet（43.8%）和VLG（75.3%）。尽管存在未见过的物体和严重的遮挡情况，目标物体几乎不可见或完全不可见，但ThinkGrasp仍然保持了78.9%的高成功率，展现了其强大的泛化能力。在现实世界中，系统也实现了高成功率，并且所需步骤较少。

• 系统的模块化设计使其能够轻松集成到各种机器人平台和抓取系统中。它与6自由度两指夹爪兼容，展示了强大的泛化能力。通过简单的提示，它能够快速适应新的语言目标和新型物体，使其具有高度灵活性和可扩展性。

ThinkGrasp方法介绍

在严重杂乱的环境中，机器人抓取面临着由于遮挡和多个物体的存在而带来的重大挑战。主要问题在于：为自然语言指令指定的目标物体设计合适的抓取姿态。

一个显著的挑战是遮挡，即物体常常被其他物品部分或完全遮挡，这使得机器人难以识别和抓取目标物体。另一个问题是自然语言指令的模糊性。这些指令可能含糊不清，需要机器人准确解读用户的意图，并在众多可能性中识别出正确的物体。此外，环境的动态性意味着抓取策略必须随着物体位置和方向的变化实时调整。确保安全性和稳定性至关重要，因为抓取姿态不仅要可行，而且要稳固，以避免损坏物体或机器人。效率也至关重要，因为减少实现成功抓取所需步骤的数量可以使过程更快、更有效。

为了克服这些挑战，我们需要一个系统，该系统能够准确理解环境、解释自然语言命令、即使目标物体部分遮挡也能定位、根据当前环境调整其抓取方式、确保安全稳定的抓取，并高效运行以用最少的努力完成任务。

提出的方法通过一个迭代流程（图1）解决了杂乱环境中抓取的战略部分。给定一个初始的RGB-D场景观测O0（模拟中为224×224，真实机器人为640×480）和一个自然语言指令g。

首先，系统利用GPT-4o执行我们称之为“想象分割”的过程。在这个过程中，GPT-4o将视觉场景和自然语言指令g作为输入。GPT-4o将生成视觉理解和分割假设，识别出与给定指令最匹配的潜在目标物体或部分。对于每个识别的物体，GPT-4o通过想象最优分割并在3×3网格内提出具体的抓取点，来建议最合适的抓取位置。

GPT-4o利用目标语言条件来识别当前场景中的潜在物体。然后，它确定哪个物体在移动后最有可能揭示目标物体，或者如果目标物体已经可见，则直接选择目标物体作为目标。它根据视觉输入和语言指令来想象分割后的物体，利用3×3网格方法，专注于对抓取来说最安全、最有利的物体部分。3×3网格策略将包含提议的目标物体或部分的裁剪框划分为3×3网格，并建议一个1到9之间的数字，指示最优抓取区域（1代表左上角，9代表右下角）。这种策略特别适用于低分辨率图像，它侧重于选择最优区域而不是精确的点，同时也考虑了机械臂和夹爪成功抓取的约束条件。

接下来，系统根据GPT-4o识别的是物体还是物体部分，使用LangSAM 或VLPart 进行分割，并裁剪包含这些物体的点云。GPT-4o将在每次抓取后根据新的视觉输入调整其选择，更新其“想象分割”以及对目标物体和首选抓取位置的预测，使用裁剪后的点云。

为了确定最优抓取姿态，系统基于裁剪后的点云生成一组候选抓取姿态A。为了验证我们的系统，我们在实验中保持变量一致。使用不同的抓取生成网络进行模拟和真实机器人测试。具体来说，我们在所有模拟比较中使用Graspnet-1Billion ，而在真实机器人比较中使用FGC-Graspnet 。这种方法确保了我们的结果是可靠的，并且观察到的任何差异都归因于抓取系统本身，而不是抓取生成网络的不一致性。候选抓取姿态A根据其接近GPT-4o建议的首选位置的程度以及各自抓取生成模块的抓取质量评分进行评估。系统对选定的目标执行最优姿态。

这个闭环过程展示了系统的适应性，它根据每次抓取尝试后的更新场景观测生成下一个抓取策略。该流程根据需要调整其抓取策略，直到任务成功完成或达到最大迭代次数。它有效地管理了严重杂乱环境带来的挑战。

1）GPT-4o在目标物体选择中的角色与约束求解器

我们的抓取系统利用GPT-4o这一最先进的视觉语言模型（VLM），无缝集成视觉和语言信息。GPT-4o在上下文推理和知识表示方面表现出色，使其特别适用于杂乱环境中的复杂抓取任务。

目标物体选择：GPT-4o在识别与给定指令最匹配的物体方面表现出色，有效地关注相关区域并避免无关选择，即使在没有深度信息的情况下也是如此。这确保了系统不会尝试抓取不太可能隐藏目标物体的物体。例如，在图2中，左上角的小包裹被正确地忽略，因为它下面很可能没有任何隐藏物。

在目标物体选择过程中，GPT-4o使用语言指令g和场景上下文来选择最相关的物体。它考虑诸如物体与指令的相关性、抓取的难易程度以及潜在的障碍物等因素。这种有针对性的方法通过优先考虑最有可能导致任务成功完成的物体，确保了抓取的高效性和有效性。

该过程可以表述为：

其中，是选定目标物体的颜色和名称，g是语言指令，是场景的颜色观测值，表示选择函数，该函数评估在指令和场景背景下每个物体o的适用性。

处理遮挡和杂乱：GPT-4o策略性地识别和选择物体，即使在物体被严重遮挡或部分可见时也能确保准确抓取。系统智能地移除遮挡物以提高可见性和抓取准确性。

2）3×3网格策略用于最优抓取部分选择

3×3网格策略通过从选择精确点转变为在3×3网格内选择最优区域，增强了系统处理低分辨率图像（224×224）的能力。这种转变利用了更广泛的上下文信息，即使像素密度较低，也使抓取选择过程更加健壮和可靠。网格将目标物体（由分割算法得分最高的输出得出的边界框表示）划分为九个单元格。每个单元格都根据安全性、稳定性和可访问性进行评估。GPT-4o根据其对物体的想象分割，在此网格内输出一个优选的抓取位置，指导后续的分割和姿态生成步骤。

与依赖单一最佳抓取姿态选择的传统方法不同，我们的系统首先根据它们与优选位置的接近程度评估多个潜在的抓取姿态（前k名）。然后，从这些顶级候选者中，选择得分最高的姿态。这种方法与3×3网格策略相结合，以确定最优抓取区域，确保了所选抓取姿态既是最优的又是稳定的，从而显著提高了整体性能和成功率。

3）目标物体分割与裁剪区域生成

分割与裁剪：在我们的系统中，当GPT-4o识别出一个物体时，使用LangSAM框架来生成精确的分割掩码和边界框，这对于分割低分辨率图像特别有效。当GPT-4o识别出物体的特定部分（如手柄）时，利用VLPart进行详细的部件分割。如果VLPart无法准确分割该部件，会退回到LangSAM与3×3网格策略相结合，以确保我们的方法仍然能够准确地考虑和处理物体部件。

抓取姿态生成：为了确定最优抓取姿态Pg，系统基于裁剪后的点云生成一组候选抓取姿态A。候选抓取姿态A根据它们与GPT-4o建议的优选位置的接近程度以及各自抓取生成模块的抓取质量分数进行评估。经过评估后，得分最高的抓取姿态被选为最优抓取姿态。

鲁棒性和错误处理：尽管GPT-4o具有先进的功能，但偶尔也可能发生误识别。为了解决这个问题，采用迭代细化方法。如果抓取尝试失败，系统会捕获新图像，更新分割和抓取策略，并再次尝试。这种闭环过程确保了基于实时反馈的持续改进，从而显著提高了鲁棒性和可靠性。

消融实验（表1）表明，当我们将LangSAM与GPT-4o结合用于抓取点选择时，与单独使用GPT-4o相比，系统性能显著提高。通过将GPT-4o的上下文理解与LangSAM的精确分割和VLPart的详细部件识别相结合，我们的系统实现了更高的成功率和更高的效率。这种协同作用确保了更准确的抓取和更复杂场景的更佳处理。

4）抓取姿态生成与选择

候选抓取姿态生成：使用局部点云，系统生成一组候选抓取姿态：

抓取姿态评估：使用一种分析计算方法对每个抓取进行评分。基于来自GraspNet-1Billion的改进力封闭度量标准，通过逐渐将摩擦系数µ从1减小到0.1（直到抓取不再是对极的）来计算得分。摩擦系数µ越低，成功抓取的概率越高。我们的得分s定义为：

每个候选抓取姿态都根据其与优选抓取位置的对齐程度进行评估。通过最大化一个考虑每个姿态适用性的得分函数来选择最优抓取姿态：

5）针对重度杂乱环境的闭环鲁棒系统

我们的系统通过闭环控制机制增强了在重度杂乱环境中的鲁棒性，该机制在每次抓取尝试后都会不断更新场景理解，确保使用最新的信息。裁剪区域和抓取姿态会根据实时反馈进行动态调整，从而使系统能够专注于最相关的区域并选择最优抓取姿态。

如图2所示，图像序列展示了根据用户指令选择目标物体的过程。首先，用户给出目标物体“芒果”并输入命令“给我一个水果”。初始的彩色输入图像来自模拟。GPT-4o根据提示选择一个物体（例如绿色瓶子）和一个优选位置，并将其分割成3×3网格。这些信息将被传递给LangSAM进行分割。LangSAM将图像中所有绿色瓶子进行分割，并裁剪出包含所有绿色瓶子的点云。然后，它在裁剪后的点云中生成所有可能的抓取姿态。具有最高LangSAM分割得分的姿态被选为目标物体。目标点是GPT-4o提供的优选物体位置的中心。然后，系统评估距离目标点最近的前10个姿态，并选择得分最高的姿态，最后在绿色瓶子上执行该姿态。即使GPT-4o的初步选择与目标不匹配（例如选择瓶子而不是芒果），由于颜色特征的明显差异，LangSAM的分割和评分过程也会纠正错误并锁定在目标物体上。

实验对比分析

我们的系统设计用于在模拟和现实世界环境中都能有效工作，并针对每个环境的独特挑战和限制进行了量身定制的适应。

模拟环境使用PyBullet构建，包括一个UR5机械臂、一个ROBOTIQ-85夹爪和一个Intel RealSense L515相机。原始图像被调整为224×224像素，并通过LangSAM进行分割以获得精确的对象掩码。我们将解决方案与最先进的方法Vision-Language Grasping (VLG)和OVGrasp进行了比较，这些方法使用相同的GraspNet主干以确保公平比较。此外，还将我们的方法与直接使用GPT-4o选择目标抓取点而不进行额外处理或与其他模块集成的方法进行了比较。

我们的杂乱环境实验集中在各种任务上，如抓取圆形物体、取用餐具或饮料等物品，以及其他特定请求。每个测试用例包括15次运行，通过两个指标来衡量：任务成功率和动作次数。任务成功率是指在15次测试运行中，在15次动作尝试内成功完成任务的平均百分比。动作次数是指每完成任务一次所需的平均动作数。

结果。表1总结了结果，表明我们的系统在整体成功率和效率指标上显著优于基线方法。在杂乱环境中的平均成功率为0.980，平均步数为3.39，平均成功步数为3.32（如图3所示）。这些结果表明，我们的系统不仅在完成抓取任务方面表现出色，而且效率更高，成功完成任务所需的步数更少。

还评估了系统在重度杂乱场景中的性能，其中物体被部分或完全遮挡。这些场景（如图4所示）包含多达30个未见过的物体，并且每次运行允许最多50次动作尝试。表1中的结果表明，在这些具有挑战性的条件下，我们的系统显著优于基线方法，实现了最高的成功率2，并且成功抓取所需的步数最少。

消融研究。为了评估我们系统中不同组件的贡献，这里进行了消融研究。这些消融研究的结果如表1所示，研究突出了我们完整系统的有效性。一种配置标记为“无3×3”，它不会将对象分割为3×3网格来选择抓取点，而是使用对象边界框的中心。另一种配置“GPT裁剪”使用GPT-4o来确定点云的裁剪坐标，从而专注于与抓取相关的区域。“无GPT4o”配置则完全排除了GPT-4o的使用。这些实验表明，我们集成了所有组件的完整系统实现了优越的性能，证明了每个部分在提升整体有效性方面的重要性。

真实世界场景实验

我们将系统的功能扩展到现实世界环境中，以处理复杂多变的场景。设置包括一个具有6个自由度的UR5机械臂和一个Robotiq 85夹爪。使用RealSense D455相机捕获观测数据，提供用于点云构建的彩色和深度图像。使用MoveIt运动规划框架和RRT*算法确定抓取的目标姿态。ROS管理通信，运行在一台配备12GB 2080Ti GPU的工作站上。我们的ThinkGrasp模型部署在具有双3090 GPU的服务器上，使用Flask，通过GPT-4o API在10秒内提供抓取姿态预测。

在我们的现实世界实验中，将系统与VL-Grasp进行了比较，使用了相同的FGCGraspNet下游抓取模型，以确保对我们的战略部分抓取和重度杂乱处理机制引入的改进进行公平评估。

结果。我们的结果（表3）表明，即使在杂乱的环境中，系统在识别和抓取目标物体方面也具有较高的成功率。VLPart和GPT-4o的集成显著提高了系统的鲁棒性和准确性。然而，由于单幅图像数据的局限性、下游模型产生的低质量抓取姿态以及UR5机器人稳定性和控制的差异，也发生了一些失败情况。这些失败凸显了稳健的图像处理对于确保准确的场景解释、精确的抓取姿态生成以提高成功率以及稳定的机器人控制操作的重要性。解决这些因素对于进一步提升系统性能至关重要。附录（表A）中提供了更多技术细节和实验设置。

参考

[1] ThinkGrasp: A Vision-Language System for Strategic Part Grasping in Clutter.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频