论文标题
Learning Hierarchical Prompt with Structured Linguistic Knowledge for Vision-Language Models 基于结构化语言知识学习分层提示的视觉-语言模型
论文链接
Learning Hierarchical Prompt with Structured Linguistic Knowledge for Vision-Language Models论文下载
论文作者
Yubin Wang, Xinyang Jiang, De Cheng, Dongsheng Li, Cairong Zhao
内容简介
本文提出了一种名为分层提示微调(HPT)的新方法,旨在通过结构化语言知识增强视觉-语言模型(VLMs)的提示学习效果。传统的提示学习方法在处理与特定类别相关的描述时,往往缺乏有效的结构化信息,导致模型在面对模糊类别名称时表现不佳。为了解决这一问题,HPT结合了结构化知识和传统语言知识,通过构建图形模型来表示类别的实体和属性及其相互关系。HPT引入了关系引导注意力模块,以捕捉实体和属性之间的成对关联,并通过高层和全局层级的提示来处理更复杂的长期关系。实验结果表明,HPT在多个评估设置中表现优于现有的最先进方法,展现出更强的有效性和泛化能力。
分点关键点
-
分层提示微调(HPT)方法
- HPT通过同时建模结构化和传统语言知识,利用大型语言模型(LLMs)生成类别相关的描述和结构化关系。该方法通过引入低级、高级和全局级提示,增强了提示的有效性。
-
关系引导注意力模块
- 该模块用于捕捉实体和属性之间的成对关系,利用注意力机制将结构化知识融入文本编码器的每一层,从而提升模型对类别的理解能力。
-
复杂关系建模
- HPT通过高层和全局层级的提示,能够处理更复杂的长期关系,克服了传统方法在处理模糊类别时的局限性,提升了模型的泛化能力。
-
实验验证
- 通过在多个评估设置(如基础到新泛化、跨数据集评估和领域泛化)中进行广泛实验,HPT展现出显著的性能提升,证明了其在视觉-语言任务中的有效性。

- 通过在多个评估设置(如基础到新泛化、跨数据集评估和领域泛化)中进行广泛实验,HPT展现出显著的性能提升,证明了其在视觉-语言任务中的有效性。
论文代码
代码链接:https://github.com/Vill-Lab/2024-AAAI-HPT
中文关键词
- 分层提示微调
- 结构化语言知识
- 视觉-语言模型
- 关系引导注意力
- 提示学习
- 泛化能力
AAAI论文合集:
希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!


317

被折叠的 条评论
为什么被折叠?



