分层隐语言描述的One-Shot Learning_语言模型one shot提示-CSDN博客

本文链接：https://blog.csdn.net/gbstack08/article/details/123406500

本文探讨了一种名为分层潜在语言描述的One-Shot Learning方法，该方法使代理能通过观察单个任务演示在新环境中复制任务。研究中提出DescribeWorld环境用于测试任务概括能力，并设计了三级分层潜在语言策略（HLLP）代理，该代理使用自然语言描述任务和子任务以实现概括。实验表明，HLLP代理在处理新任务时表现出较高的概括能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

One-Shot Learning from a Demonstration with Hierarchical Latent Language

分层隐语言描述的One-Shot Learning

关注公众号：AI基地，及时获取最新资讯，学习资料

借助语言的表达组合，人类有能力通过示范快速学习。他们能够描述看不见的任务执行过程，并将其执行推广到其他上下文中。在这项工作中，作者介绍了DescribeWorld，这是一种旨在测试接地代理中这种泛化技能的环境，其中任务在语言和程序上由基本概念组成。代理在类似《我的世界》的网格世界中观察单个任务演示，然后被要求在新地图中执行相同的任务。为了实现这样的概括水平，作者提出了一种注入分层潜在语言的神经代理 -- 在任务推理和子任务计划层面。作者的代理首先生成一个演示的看不见的任务的文本描述，然后利用这个描述来复制它。通过多个评估场景和一套泛化测试，作者发现执行基于文本的推理的代理更好地应对任务随机分割下的挑战。

人类非常有能力以身作则。如果一个孩子看着他们的学校老师画一只紫色的有翼大象，然后向后背诵字母表，他们可以相对轻松地在家复制一数据集活动。这在很大程度上是由于人类能够利用语言的组成来理解由熟悉的概念组成的新情况 (乔姆斯基，1957)。孩子可以用文字重述演示 (就像作者上面做的那样)，自然地将其分解成不同的子组件 (图画和字母表)，这些子组件本身就是程序组成 (例如g.，“拿起紫色记号笔……”)。人类利用他们对任务层次组成的语言理解将其推广到一个新的语境中; 没有这种概括，作者可能期望一个孩子会夸大课堂环境的具体情况。

图1：通过潜在语言从演示中学习的框架。Describer 模块观察一个看不见的任务的 oracle 演示，并用文本描述它。根据生成的描述，讲师模块推断必要的子任务，由执行器模块通过低级控制操作完成。

在这项工作中，作者探索接地的人工代理是否可以从一个演示中类似地概括: 一个单一的专家轨迹来完成一项任务。具体来说，作者提出了一个设置，其中代理观察到一个从未见过的任务的演示，然后必须在新的环境中执行该任务。作者构建DescribeWorld，一个包含高级任务数据集的环境，包括构建配方、导航以及与对象和地形的交互。1测试任务不同于训练任务，但是它们在程序上由相同的子任务和低级操作组成。

由于人类利用语言来执行这种概括，作者遵循最近的工作 (Ruis等人，2020)，通过设计，以及传统的随机任务分割，一套基准拆分，需要学习管理语言变化如何影响任务子任务配方的系统规则。例如，代理人可能会被训练建造一个猪棚和一个铁制神社，然后在测试期间必须建造看不见的成分猪神社。

为了在这种任务环境中执行，作者设计了一个新颖的三级分层潜在语言策略（HLLP）代理，它用自然语言表示高级任务（"在现场建造房子"）和子任务计划（"砍伐木材"）。如图 1 所示，这有效地将从演示中学习的挑战重新定义为 a）描述所演示的看不见的任务，然后 b）在新地图中遵循预测描述。代理在两个抽象级别上使用文本表示：标识顶