实时调整，灵活抓取！RT-Grasp：大语言模型赋能的机械臂抓取新架构

最新推荐文章于 2025-01-28 18:16:38 发布

深蓝学院

最新推荐文章于 2025-01-28 18:16:38 发布

阅读量1.3k

点赞数 19

文章标签：语言模型

本文链接：https://blog.csdn.net/soaring_casia/article/details/143895091

版权

导读：

近年来，大型语言模型（LLMs）在多个领域展现出了卓越的推理能力，逐渐成为各行各业的重要工具。然而，在机器人领域，LLMs的应用目前主要局限于操作规划任务，尚未充分发挥其在具体机器人操作中的潜力，尤其是在精确的抓取任务中。©️【深蓝AI】编译

论文出处：IROS2024

论文标题：RT-Grasp: Reasoning Tuning Robotic Grasping via Multi-modal Large Language Model

论文作者：Jinxuan Xu, Shiyu Jin, Yutian Lei, Yuqian Zhang and Liangjun Zhang

项目地址：https://sites.google.com/view/rt-grasp

编译：阿豹

本文提出了一种创新的方法——推理调优（Reasoning Tuning），旨在解决这一问题。通过在训练过程中加入推理阶段，该方法让LLMs能够生成数值预测，尤其是在机器人抓取任务中的关键数值输出，如抓取姿势。得益于LLMs强大的推理能力和丰富的先验知识，机器人不仅能够生成适应不同场景的抓取方案，还能够通过对话进行灵活调整，从而实现更加智能化的抓取操作。

通过在多个抓取数据集和真实实验中的广泛验证，结果表明，具备多模态能力的LLMs能够精准预测抓取姿势，成功弥合了基于文本的规划与实际机器人控制之间的隔阂，显著提升了LLMs在机器人抓取领域的应用潜力。

1.引入

近年来，人工智能的迅猛发展，尤其是大型语言模型（LLMs）的出现，极大推动了各个领域的进步。这些模型凭借丰富的知识库和强大的推理能力，正在彻底改变我们处理各种任务的方法，尤其是在语言处理方面。机器人学中，LLMs在促进机器人与人类之间的直接互动方面发挥了重要作用。例如，在机器人操作规划等任务中，许多研究[1][2][3]已经利用LLMs将用户的自然语言指令转化为机器人可执行的多步骤规划。然而，尽管LLMs在机器人学中的应用潜力巨大，它们目前的应用主要集中在规划任务中，尤其是在需要精确数值输出的任务中，LLMs的应用却面临着瓶颈。

本文提出了一个创新的方法，探讨了如何将LLMs的推理能力应用于机器人任务中的数值预测，特别是在机器人抓取任务中的应用。传统的机器人抓取方法通常依赖于确定性预测，但这些方法由于缺乏推理能力，在实际应用中常常无法应对复杂环境的挑战。例如，许多基于CNN架构的传统方法在基准数据集上表现出色，但在实际操作中，常常出现理论上正确但执行时不切实际的情况。具体而言，某些理论上正确的抓取姿势，在实际操作时可能由于机器人的夹爪限制或其他因素，导致无法成功实施。因此&#

最低0.47元/天解锁文章