【论文笔记】Ground Manipulator Primitive Tasks to Executable Actions using Large Language Models

本文探讨了如何通过大型语言模型将高层任务转化为机器人执行的低级运动指令,提出了一种基于形式化任务框架的类编程提示方法,以解决分层机器人系统的转换问题。实验结果显示,现有LLMs在理解和执行非直接关联的任务时面临挑战。
摘要由CSDN通过智能技术生成

【论文笔记】Ground Manipulator Primitive Tasks to Executable Actions using Large Language Models

Abstract

  1. 研究目标:解决从高层任务低层机器人执行指令的转换问题。

  2. 研究问题:在分层架构的机器人系统中,如何将规划层的高级任务直接转换为执行层的低级运动指令。

  3. 作者的研究思路:提出一种将操作原语任务机器人低级动作联系起来的新方法,利用大型语言模型(LLMs)实现。

  4. 具体技术路线:

    设计基于形式化任务框架(Task Framework Formalism)的类编程的提示。

    使LLMs能够为生成混合控制位力集点

  5. 评估方法:对几种最先进的LLMs进行评估。

Introduction

分层化机器人系统

  • 分层架构的发展可以追溯到斯坦福研究院的 Shakey 移动机器人。

    其系统由高级功能编程,用一阶逻辑解决规划问题,并通过低级功能指定电机命令。

  • 被总结为 “感知 —— 建模 —— 规划 —— 执行” (Sense - Model - Plan - Action)范式。

    通常分层的范式是:一个规划层和一个执行层。

  • 分层存在的问题是:从规划层到执行层的转换存在困难。

    【仿生包容结构】 存在,但是没有很多进展。

    【使用原语任务】 它引入了一组中间层动作库,例如 “推动物体” 或 “通过门” ,以在高级语言逻辑低级电机命令之间进行中介转换。成果:高层规划,中层执行和低层硬件控制层。现有的基于原始任务的方法需要繁琐的手动规定。它们通常产生一些包含少量原始任务的库,从而限制了机器人的任务适应性和通用性。


自然语言处理 for 机器人任务规划

列举了经典的几篇论文。。。真的很经典。。。

利用大型语言模型以 zero-shot 或 few-shot 的方式生成高级任务计划。

生成的抽象计划是用自然语言描述的,因此执行层无法理解。

【设计固定的语法实现高层-底层之间的转换】

  • 早期的方法使用严格的语法规则,将任务规范转换为线性时间逻辑形式;
  • 语法解析器用于将句子指令分解为不同的语法元素,主要涉及动词和对象;
  • 基于单词的统计机器翻译模型,以实现对新环境的泛化;
  • 单词嵌入(Word Embedding)和循环神经网络(RNN)成为主流,并在后来引入机器人任务分解中;
  • 现在,LLMs。

形式化任务框架

形式化任务框架的概念起源于对顺应运动(compliant motions)的研究(Mason 1981)。

形式化任务框架被明确地制定为任务规划力/位置控制之间的中间转换。

任务框架(也称为顺应框架)是附加在被操纵对象上局部坐标系

它的平移旋转方向可以配置为力控制位置控制

传统工作的不足之处:主要关注低级行动表示的分类,并很少考虑与高级任务命名的关联。


作者提出的方法概述

提出了一种方法,使用LLMs将文本 操作原语任务 转化为 可执行的动作

  • 设计一个形式化任务框架(Task Framework Formalism)的类编程提示,这是一种面向对象的规范。

  • 该提示将原始任务的文本作为输入,并输出任务框架中的一组位置/力矩设定点。

Porposed Approach

Preprocess: Identify Manipulator Primitive Tasks

将 “insert peg” 或 “open bottle” 等任务视为原始任务,通过单个控制策略完成无需更改坐标设置

将 “assembly GPU” 或 “make coffee” 是非原始任务的示例,必须进一步分解为多个步骤,这些步骤使用不同的控制策略和坐标。如果某个任务不是原始任务,需要进行任务分解。

TFF-based Prompt Design

使用LLMs以形式化任务框架的方式将其转换为低级执行程序。

LLMs倾向于对非正式问题提供冗长的答案详细的解释,需要设计特定的提示来将输出调节为结构化形式。

受到使用代码块生成机器人动作计划的启发,在计算机编程中以函数形式设计提示词。

1

  • 在函数外部,使用程序注释来指示函数是用于源函数还是目标函数。

    建议使用具有不同形式化任务框架配置的多个源函数,以为LLMs提供更好的指导。

  • 函数名就是原语任务名。

  • 函数参数以任务坐标系中的六个运动方向的进行规定。

  • 如果一个方向不激活,只需将其值指定为0。使用 t r a n s l a t i o n a l z = − 5 N \mathbf{translational}_z=-5\mathbf{N} translationalz=5N a n g u l a r z = 5 r a d / s e c \mathbf{angular}_z = 5 \mathbf{rad / sec} angularz=5rad/sec 来激活六个方向中的两个,控制信号是并行实现的。

Evaluation

Baselines
LLMtemperature hyperparametertop Pfrequency penaltypresence penalty hyperparameters
GPT-3.5-turbo0100
GPT-40100
Bard (Web GUI)NoneNoneNoneNone
LLaMA-20.01100
Evaluation Methods

zero-shot; one-shot; three-shot; five-shot;

2

Results

3

  1. 在 zero-shot 测试中,没有一个LLM能够产生有效的响应。
  2. 对于 GPT-3.5-turboGPT-4Bard 模型,它们从 one-shot 开始就严格遵循定义的代码格式。
  3. 对于 one-shot 提示的 Bard ,它的大多数目标任务规范本质上是从源任务的方向设置中复制的。
  4. 失败原因分析:这些失败的任务与源任务语义相差很大,对LLMs提出了更多的挑战。
  5. LLaMA-2-70B只是反复地调用源函数。它不能生成任何新的坐标设置位置/力设置点

Conclusions and Discussions

  • 建议构建一个更全面的提示,包括所有接触和运动类型的任务。
  • 可以进一步引导 LLaMA-2 模型生成正确规范的操作。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ctrl+Alt+L

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值