用伪语言标签对CLIP进行自步课程自适应,实现到定位任务的无监督迁移

该研究提出CLIP-VG,一种使用伪语言标签对CLIP进行自步课程自适应的无监督方法,以解决视觉定位任务。通过端到端网络架构,结合单源和多源自步自适应算法,CLIP-VG在多个数据集上显著优于现有无监督方法,甚至优于某些弱监督方法,同时在全监督设置下具有竞争力。这种方法通过可靠度评估和自适应策略,平衡了伪标签的可靠性和多样性,提高了模型性能。
摘要由CSDN通过智能技术生成

da380d6d272f18da401a3ced72ab371d.gif

54f8894cfabf192fc445b53a39c0e48a.png

论文题目:

CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding

发表期刊:

IEEE Transactions on Multimedia 中科院/JCR一区顶刊

工作内容:

基于自步课程学习实现多模态大模型 CLIP 在多模态视觉语言理解与定位任务上的迁移研究

论文链接:

https://ieeexplore.ieee.org/abstract/document/10269126

arXiv链接:

https://arxiv.org/abs/2305.08685

代码链接:

https://github.com/linhuixiao/CLIP-VG(已开源)

第一作者:

肖麟慧(中科院自动化所博士)

通讯作者:

徐常胜

作者单位:

中国科学院自动化所多模态人工智能系统全国重点实验室;鹏城实验室;中国科学院大学人工智能学院

07bb689b909ae466fb1b4ae5ad78e683.png

摘要

视觉定位(VG)是视觉语言领域的一个重要课题,它涉及到在图像中定位由表达句子所描述的特定区域。为了减少对人工标记数据的依赖,无监督的方法使用伪标签进行学习区域定位。然而,现有的无监督方法的性能高度依赖于伪标签的质量,并且这些方法总是遇到可靠性低多样性差的问题。

为了利用视觉语言预训练模型来解决定位问题,并合理利用伪标签,我们提出了一种新颖的方法 CLIP-VG,它可以使用伪语言标签对 CLIP 进行自步式课程自适应。

我们提出了一个简单而高效的端到端网络架构来实现 CLIP 到视觉定位任务的迁移。在以 CLIP 为基础的架构上,我们进一步提出了单源和多源课程自适应算法,这些算法可以逐步找到更可靠的伪语言标签来学习最优模型,从而实现伪语言标签的可靠度和多样性之间的平衡。

我们的方法在单源和多源场景下的 RefCOCO/+/g 数据集上都明显优于当前最先进的无监督方法,提升幅度分别为从 6.78% 至 10.67% 和 11.39% 至 14.87%。同时,我们的方法甚至优于现有的弱监督方法。此外,我们的模型在全监督设置下也具有一定的竞争力,同时达到 SOTA 的速度和能效优势。代码和模型可在下方链接获得:

https://github.com/linhuixiao/CLIP-VG

b0d2f82dc2b628ed7d2067c0a9838de2.png

▲ 图1. CLIP-VG 的主要思想,它在自步课程自适应的范式中使用伪语言标签来实现 CLIP 在视觉定位任务上的迁移学习

69d1552a60e42343be03b3d12d76b399.png

引言

视觉定位(Visual Grounding,VG),又称指代表达理解(Referring Expression Comprehension,REC),或短语定位(Phrase Grounding, PG),是指在特定图像中定位文本表达句子所描述的边界框(bounding box,即 bbox)区域,这一技术已成为视觉问答、视觉语言导航等视觉语言(Vision-Language, V-L)领域的关键技术之一。

由于其跨模态的特性,定位需要同时理解语言表达和图像的语义,这一直是一项具有挑战性的任务。考虑到其任务复杂性,现有的方法大多侧重于全监督设置(即,使用手工三元组数据作为监督信号)。

然而,有监督的定位要求使用高质量的手工标注信息。具体来说,表达句子需要与 bbox 配对,同时在指代上是唯一的,并且需要具有丰富的语义信息。为了减少对手工高成本的标记数据的依赖,弱监督(即,仅给定图像和查询对,没有配对的 bbox)和无监督定位(即,不使用任何与任务相关的标注信息去学习定位图像区域)最近受到越来越多的关注。

现有的无监督定位方法主要是利用预训练的检测器和额外的大规模语料库实现对未配对数据的指代定位。最先进的无监督方法提出使用人工设计的模板和空间关系先验知识来匹配目标和属性检测器,再与相应的目标 bbox 匹配。这将生成文本表达和 bbox 的伪配对数据,它们被用作为伪标签,进而以监督的方式学习定位模型。

然而,这些现有方法中的伪标注信息有效与否严重依赖于在特定数据集上预训练的目标或属性检测器。这可能会限制语言词汇和匹配模式的多样性,以及上下文语义的丰富度,最终损害模型的泛化能力。

在过去的几年里,视觉语言预训练(Vision-Language Pre-trained, VLP)基础模型(如 CLIP)通过适应(adapting)或提示(prompting)的范式在使用少量任务相关数据的基础上进行迁移,在许多下游任务上取得了出色的结果。

这些基础模型的主要优点是,它们可以通过自监督约束从网络数据和各种下游任务数据(例如,BeiT-3)中学习通用的知识。这启发我们考虑迁移 VLP 模型(本工作中使用 CLIP),以无监督的方式解决下游定位问题。然而由于缺乏与任务相关的标记数据,因此,这是一项具有挑战性的任务。

一个直接的解决方案是利用以前的无监督定位方法中生成的伪标签来微调预训练模型。然而,这将影响预训练模型的泛化能力,因为特定的伪标签和真实特定任务的标签之间存在差距。

在本文中,我们提出了 CLIP-VG,如图 1 所示,这是一种新颖的方法,它可以通过利用伪语言标签对 CLIP 进行自步地课程自适应,进而解决视觉定位问题。

首先,我们提出一个简单而高效的端到端纯 Transformer 且仅编码器的网络架构。我们只需要调整少量的参数,花费最少的训练资源,就能实现 CLIP 向视觉定位任务的迁移。

其次,为了通过寻找可靠的伪标签来实现对 CLIP 网络架构更稳定的自适应迁移,我们提出了一种评估实例级标签质量的方法和一种基于自步课程学习(SPL)的渐进自适应算法,即可靠度评估(III-C 部分)和单源自步自适应算法(SSA,III-D 部分)。

实例级可靠度被定义为特定标签源学习的评估器模型对其样本正确预测的可能性。具体而言,我们学习一个初步的定位模型作为可靠度评估器,以 CLIP 为模型的主干,然后对样本的可靠度进行评分,构建可靠度直方图(RH)。接下来,根据构建的直方图,以自步的方式执行 SSA 算法,逐步采样更可靠的伪标签,以提高定位的性能。

为了有效地选择伪配对的数据子集,我们设计了一种基于改进的二叉搜索的贪心样本选择策略,以实现可靠度和多样性之间的最优平衡。

我们所提出的 CLIP-VG 的一个主要优点是其渐进式自适应框架,其不依赖于伪标签的特定形式或质量。因此,CLIP-VG 可以灵活扩展,从而可以访问多个伪标签源。在多源场景中,我们首先独立学习每个伪标签源特定源的定位模型。然后,我们提出了源级复杂度的评估标准。

具体而言,在 SPL 的不同步骤中,我们根据每个表达文本中实体的平均数量,从简单到复杂逐步选择伪标签源。在 SSA 的基础上,我们进一步提出了特定源可靠度(SR)和跨源可靠度(CR),以及多源自适应(MSA)算法(III-E 节)。

特定源的可靠度定义为使用当前标签源学习的定

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值