AAAI2024最佳解读|Learning Hierarchical Prompt with Structured Linguistic Knowledge for Vision-Language

论文标题

Learning Hierarchical Prompt with Structured Linguistic Knowledge for Vision-Language Models 基于结构化语言知识学习分层提示的视觉-语言模型

论文链接

Learning Hierarchical Prompt with Structured Linguistic Knowledge for Vision-Language Models论文下载

论文作者

Yubin Wang, Xinyang Jiang, De Cheng, Dongsheng Li, Cairong Zhao

内容简介

本文提出了一种名为分层提示微调(HPT)的新方法,旨在通过结构化语言知识增强视觉-语言模型(VLMs)的提示学习效果。传统的提示学习方法在处理与特定类别相关的描述时,往往缺乏有效的结构化信息,导致模型在面对模糊类别名称时表现不佳。为了解决这一问题,HPT结合了结构化知识和传统语言知识,通过构建图形模型来表示类别的实体和属性及其相互关系。HPT引入了关系引导注意力模块,以捕捉实体和属性之间的成对关联,并通过高层和全局层级的提示来处理更复杂的长期关系。实验结果表明,HPT在多个评估设置中表现优于现有的最先进方法,展现出更强的有效性和泛化能力。在这里插入图片描述

分点关键点在这里插入图片描述

  1. 分层提示微调(HPT)方法

    • HPT通过同时建模结构化和传统语言知识,利用大型语言模型(LLMs)生成类别相关的描述和结构化关系。该方法通过引入低级、高级和全局级提示,增强了提示的有效性。
  2. 关系引导注意力模块

    • 该模块用于捕捉实体和属性之间的成对关系,利用注意力机制将结构化知识融入文本编码器的每一层,从而提升模型对类别的理解能力。
  3. 复杂关系建模

    • HPT通过高层和全局层级的提示,能够处理更复杂的长期关系,克服了传统方法在处理模糊类别时的局限性,提升了模型的泛化能力。
  4. 实验验证

    • 通过在多个评估设置(如基础到新泛化、跨数据集评估和领域泛化)中进行广泛实验,HPT展现出显著的性能提升,证明了其在视觉-语言任务中的有效性。在这里插入图片描述

论文代码

代码链接:https://github.com/Vill-Lab/2024-AAAI-HPT

中文关键词

  1. 分层提示微调
  2. 结构化语言知识
  3. 视觉-语言模型
  4. 关系引导注意力
  5. 提示学习
  6. 泛化能力

AAAI论文合集:

AAAI论文合集

希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值