【prompt七】Learning Hierarchical Prompt with Structured Linguistic Knowledge for Vision-Language Model

最新推荐文章于 2024-07-19 14:31:53 发布

羊驼不驼a

最新推荐文章于 2024-07-19 14:31:53 发布

阅读量982

点赞数 21

分类专栏： prompt 文章标签： prompt 语言模型深度学习

本文链接：https://blog.csdn.net/m0_60231311/article/details/137588162

版权

论文：Learning Hierarchical Prompt with Structured Linguistic Knowledge for Vision-Language Models

motivation

提示学习已经成为使视觉语言基础模型适应下游任务的一种流行策略。随着大型语言模型(llm)的出现，最近的研究探索了使用与类别相关的描述作为输入来提高提示有效性。然而，传统的描述缺乏有效地表示与特定类别相关联的实体或属性之间的相互联系的结构化信息。为了解决这一限制并优先利用结构化知识，本文提倡利用llm为每个描述构建一个图，以建模描述类别的实体和属性，以及它们之间的相关性。先前存在的提示调优方法在管理这种结构化知识方面表现出不足。因此，我们提出了一种称为分层提示调优(HPT)的新方法，它可以同时对结构化和传统语言知识进行建模。具体来说，我们引入了一个关系导向的注意模块来捕获实体和属性之间的成对关联，用于低级提示学习。此外，通过合并高级和全局级提示建模总体语义，提出的层次结构形成了跨层的互连，并使模型能够处理更复杂和长期的关系。

1. introduce

视觉语言基础模型(VLMs) 在图像-文本对的大规模数据集上训练，在学习可转移表征方面取得了显着进步。为了有效挖掘这些强大基础模型的潜力，提示调优方法旨在学习一组被称为提示向量的连续向量，并将其纳入输入空间，使预训练的网络具有强大的表示能力。然而，当面对模棱两可的类别名称时，模型往往难以对相应的视觉概念做出准确的判断，从而导致表现不佳。因此，在没有语言知识的帮助下，使用类别名称作为文本输入似乎是一个次优选择。最新方法通过使用大型语言模型(llm)解决了这个问题，例如GPT-3 。它们以手写模板作为输入，生成类似人类的文本，其中包含丰富的语言知识，补充了少量的视觉识别。

在本文中，我们提出了一种新的方法来补充自然语言描述与知识的结构化表示。这种结构化的知识对于及时调优是必不可少的。具体来说，具有非结构化知识的类别的描述由定义该类别的关键实体和属性组成。

例如，“睡莲”类别由“叶”、“花”等实体定义，每个实体都与类别特定的属性相关联。以下知识图谱的相关工作，我们将这些实体、属性及其相关性表示为语义理解的图。这种基于图的表示提供了一种更有组织的方式来表示信息，从而提高了数据理解能力。它有助于发现在原始描述中可能不明显的隐性联系。在这项工作中，我们利用现有的大型语言模型从普通描述中获取结构化信息，如图1所示。给定一个特定的类别，我们将手工制作的指令馈送到llm中，意图生成类似人类的描述，以及每个描述中的结构化关系，包括实体、属性和它们之间的关系。

然而，现有的提示调优方法不足以对图中表示的结构化知识进行显式建模。为此，提出分层提示调整(HPT)，以结合LLMs的结构化和传统语言知识，以分层方式提高提示有效性。为了对复杂的结构化信息建模，HPT学习具有不同语义层次的分层提示。具体地说，HPT包含特征实体和属性的低级提示，包含派生自描述的与类别相关的信息的高级提示，以及包含跨类别共享的与类别无关的知识的全局级提示。

为了捕获llm生成的实体和属性之间的成对对应关系，引入了一个关系引导的注意力模块，其中可学习的基于注意力的矩阵被集成到文本编码器中。此外，为了处理llm未充分利用的更复杂、更长期的关系，采用了跨层次的自我注意对不同层次提示之间的关系进行建模。

它有效地克服了仅依赖低级令牌建模所造成的限制，并允许对类别进行更全面的理解。我们的提示是在双路径非对称框架下训练的，其中提示的图像编码器和文本编码器分别通过将输出与来自其他模态的冻结编码器对齐来学习。通过用一种新的分层提示文本编码器取代只学习类别不可知提示的普通提示文本编码器，文本表示可以更好地与相应的视觉概念对齐，从而获得出色的识别性能。

工作贡献总结如下：

1)作者认为使用描述中的结构化知识来辅助学习提示是至关重要的。因此，利用大型语言模型来生成与类别相关的描述以及相应的结构化关系;

2)提出了分层提示调优(HPT)来同时建模结构化和传统语言知识。通过结合这两种形式的知识，可以通过更多与类别相关的信息提高提示的有效性;

2. 方法

最低0.47元/天解锁文章

羊驼不驼a

关注

21
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
【prompt七】Learning Hierarchical Prompt with Structured Linguistic Knowledge for Vision-Language Model

提示学习已经成为使视觉语言基础模型适应下游任务的一种流行策略。随着大型语言模型(llm)的出现，最近的研究探索了使用与类别相关的描述作为输入来提高提示有效性。然而，传统的描述缺乏有效地表示与特定类别相关联的实体或属性之间的相互联系的结构化信息。为了解决这一限制并优先利用结构化知识，本文提倡利用llm为每个描述构建一个图，以建模描述类别的实体和属性，以及它们之间的相关性。先前存在的提示调优方法在管理这种结构化知识方面表现出不足。
复制链接

扫一扫