Lyrics: Boosting Fine-grained Language-Vision Alignment via Semantic-aware Visual Objects

本文提出Lyrics,一种通过预训练和指令微调提升大视觉语言模型理解图像细节的能力,利用视觉细化器提取局部视觉特征,解决LVLM在细粒度对象检测上的挑战,实现在多个视觉语言任务中的先进性能。
摘要由CSDN通过智能技术生成

Lyrics:通过语义感知的视觉对象促进细粒度的语言视觉对齐:通过语义感知的视觉对象促进细粒度的语言视觉对齐

Abstract

大视觉语言模型 (LVLM) 在各种视觉语言对话场景中展示了令人印象深刻的零样本能力。然而,细粒度视觉对象检测的缺乏阻碍了模型理解图像的细节,导致不可挽回的视觉幻觉和事实错误。在本文中,我们提出了 Lyrics,这是一种新颖的多模式预训练和指令微调范例,可以通过细粒度的跨模式协作引导视觉语言对齐。 Lyrics 在 BLIP-2 的基础上构建,将从视觉细化器中提取的局部视觉特征(包括图像标记、对象检测和语义分割模块)注入到查询转换器中,而在文本方面,语言输入配备了边界框和标签源自视觉细化器。我们进一步引入了一个两阶段的训练方案,其中预训练阶段通过明确且全面的视觉语言对齐目标来弥补模态差距。在指令微调阶段,我们引入了语义感知视觉特征提取,这是使模型能够从具体视觉对象中提取信息特征的关键方法。我们的方法在跨各种视觉语言任务的 13 个保留数据集上取得了出色的性能,并在真实对话场景中展示了有前途的多模式理解和详细描述能力。

一、简介

大型语言模型(LLM)因其强大的语言生成和理解能力而引起了人工智能界的广泛关注[4,9,51]。这些模型可以通过在精心设计的指令调整数据集中进一步学习用户意图来执行各种复杂的语言任务[56]。为了探索法学硕士在语言之外的潜力,最近的研究开发了大规模视觉语言模型(LVLM)来感知和理解视觉信号,同时继承了法学硕士的高级逻辑推理和知识泛化能力[2,6,11,25,27 ]。凭借统一格式的视觉语言指令和适当的视觉感知器,著名的 LVLM 在现实场景下的详细图像描述、参考对话和复杂的多模态推理方面表现出了令人印象深刻的性能。

然而,广泛使用的LVLM习惯性地采用预先训练的CLIP[42]中的Vision Transformer(ViT)[14]作为图像编码器,其视觉特征泛化能力体现在执行预定义的标签分类和简单的图像文本匹配中。因此,由于缺乏精确的局部视觉特征,学习有效地检测图像中的细粒度视觉对象(例如颜色、计数、详细描述)和捕获视觉形态(例如动作识别、定位)提出了相当大的挑战。因此,在图像编码器无法提供足够的视觉信号来满足说明书中提到的特定目标的要求的情况下,LVLM往往会产生偏离图像细节的错误响应。第 5.5 节介绍并分析了更多示例。

为了防止视觉信号的缺乏阻碍LLM的表达,我们提出了Lyrics,一种细粒度的视觉语言预训练和指令微调框架,使模型能够处理语义感知的视觉对象,如图1所示。Lyrics从预训练的 BLIP-2 [25] 模型初始化,该模型引入了查询转换器来对齐视觉语言表示并桥接 LLM 和图像编码器。为了更好的视觉感知,我们构建了一个视觉细化器,由图像标记模块[60]、对象检测模块[59]和语义分割模块[22]组成。具体地,图像标记模块可以识别任何常见类别。对象检测模块和语义分割模块可以进一步提取与定位视觉对象相关的局部视觉特征并生成语义掩模,可用于将抽象视觉信号转换为具体的空间表示。我们进一步引入了多尺度查询转换器(MQFormer),它采用视觉细化器提供的局部视觉特征和具体空间表示来引导视觉语言对齐。在视觉语言表示对齐的预训练阶段,我们采用一对可学习的查询向量来压缩来自视觉细化器的局部视觉特征和来自图像编码器的全局视觉特征。我们利用从视觉细化器解码的视觉对象的边界框和标签,以及图像标题和可学习的查询,来执行各种语义对齐任务。在指令微调阶段,我们将 MQ-Former 学习到的查询输出连接到 LLM 进行指令响应生成学习,并在 LLM 上训练低秩适应(LoRA)[19]。我们的主要贡献总结如下:

我们开发了一种新颖的视觉语言对齐范例来探索多尺度视觉和文本信号之间的细粒度关系,该范例采用从视觉细化器中提取的局部视觉特征和空间表示进行表示学习。

我们提出Lyrics,一种通才LVLM,通过两阶段训练框架理解和感知语义感知的视觉对象,以实现精确的视觉知识理解和推理能力。

我们对不同的视觉语言任务进行了广泛的实验,包括图像字幕、视觉问答和指代表达理解。结果表明,与以前的 LVLM 相比,Lyrics 在多个基准测试中可以实现最先进的或可比的性能。

2.相关工作

2.1.高级大型语言模型

早期的语言模型,如 GPT-2 [41] 和 BERT [12] 是在大规模网络爬取数据集上训练的基础模型,象征着 NLP 领域文本理解的里程碑。随着结构和训练策略的成功,许多法学硕士通过扩大训练数据和模型大小展示了显着的零样本文本理解和生成能力,例如 GPT-3 [4]、PaLM [10] 和 BLOOM [43] 。因此,最近的代表性工作 LLaMA [51] 侧重于改进法学硕士以参与人类指导和反馈。 LLaMA 在高质量的指令数据集上进行了微调,展示了强大的指令跟随和人机交互能力,这有助于继续训练各种令人印象深刻的作品,例如 Alpaca [49]、Vicuna [9] 和 MPT [50]。

2.2.大视觉语言模型

凭借LLM卓越的泛化性和鲁棒性,常见的大视觉语言模型(LVLM)使用视觉语言跨模态适配器将视觉编码器输出的视觉特征与LLM对齐,从而激发LLM感知和理解的能力视觉信号。 Flamingo [2] 冻结了预训练的视觉编码器和 LLM,并通过感知器和门控交叉注意集成了多模态表示,展示了令人印象深刻的少样本能力。同时,BLIP-2 [25] 训练 Q-Former 来压缩视觉特征作为冻结 LLM 的输入。在此基础上,InstructBLIP [11]提出了指令感知的视觉特征提取,可以根据给定的指令进行灵活且信息丰富的特征提取。 LLaVA [27] 和 Mini-GPT4 [63] 等早期工作尝试仅使用可学习的全连接层将视觉特征简单地输入 LLM,引入视觉指令调整以增强 LVLM 中的指令跟踪能力。此外,最近的工作,如 Vision-LLM [55]、Kosmos-2 [39]、Shikra [6] 和并发 Qwen-VL [3] 也表明,在视觉编码器和 LLM 的开放训练之后,LVLM 可以理解定位图像中的对象并生成边界框的文本格式以执行视觉基础。

3. 方法

我们提出了 Lyrics,这是一种新颖的两阶段训练方案,通过语义感知的视觉对象引导细粒度的视觉语言对齐:

(1)预训练阶段对齐 MQFormer 中的多尺度视觉和文本特征。

(2) 指令微调阶段将 MQ-Former 连接到 LLM 以执行语义感知的视觉到语言生成学习。本节首先介绍带有视觉细化器的 MQFormer 模型架构,然后描述细粒度的两阶段训练方案。

3.1.模型架构

为了挖掘图像中的视觉对象并建立与空间表示的相关性,我们引入了由图像标记模块、对象检测模块和语义分割模块组成的视觉细化器,如图 2(右)所示。具体来说,对于给定的图像,我们首先采用识别任何模型(RAM)[60],这是一种用于零样本图像标记的强大基础模型,它将语义信息合并到标签查询中,以生成与图像的语义对象相关的任何常见类别。我们将具有 Nt 个检测到的标签的标签集表示为 T ag = {ti}Nt 1 并将每个标签连接成句子 t1, t2,...。 。 。 , tNt 使用逗号。然后,我们将图像和句子传输到 Grounding-DINO [59],这是一个基于 Transformer 的开放集对象检测模型,可在多个阶段执行视觉语言模态融合。对于每个标签,我们从Grounding-DINO获取超出过滤阈值的所有边界框,并将匹配的标签和边界框定义为第i个标签的空间信息{ti : [x1 i , y1 i , x2 i , y2 i ]}第一个视觉对象。此外,我们将图像及其空间坐标输入到 Segment Anything Model (SAM) [22],这是一个轻量级图像分割框架,可以生成与视觉对象的语义掩模相关的局部视觉特征。形式上,通过图像标记模块和对象检测模块,我们获得所有边界框和标签,并将它们制定为 Spatial Rep = 〈br〉〈T〉 t1 〈/T〉〈Bbox〉 x1 i , y1 i 的文本化格式, x2 i , y2 i 〈/Box〉〈/br〉 作为语义感知视觉对象的空间表示。此外,我们将从对象检测模块和语义分割模块中提取的局部视觉特征连接起来作为视觉细化器的视觉输出,并同步使用视觉变换器(ViT)[14]作为图像编码器来提取全局视觉特征。

图 2.(左)多尺度查询转换器 (MQ-Former) 的模型架构,冻结的全局和局部视觉特征被插入到每个图像转换器块中,以与可学习的查询进行交互。 (右)视觉细化器的管道由图像标记模块、对象检测模块和语义分割模块组成。

为了弥合图像编码器和视觉细化器与法学硕士之间的模态差距,我们提出 MQ-Former 作为可训练模块来执行视觉语言对齐。如图 2(左)所示,MQ-Former 由两个共享相同自注意力层的 Transformer [52] 子模块组成。 (1)在图像转换器中,我们创建了一组固定数量的视觉查询和基础查询,它们分别与图像编码器和视觉细化器交互以输出压缩的视觉特征。它通过两个独立的交叉注意层将图像编码器和视觉细化器的高维视觉特征注入可学习的查询中。基础查询和视觉查询共享一个前馈网络,该网络配备有用于特征转换的 ReLU 激活函数。 (2) 文本转换器将连接的空间表示和图像标题作为输入文本,每个文本在外部都以特殊标记 [BOS] 和 [CLS] 为前缀。此外,我们在自注意力层中执行查询和文本表示之间的模内和跨模态交互,并通过注意力掩模控制信息融合。

在我们的实验中,MQ-Former 继续在 BLIP-2 [25] 第一阶段预训练断点上进行训练,并且我们采用 Xavier 初始化 [16] 来配置额外的交叉注意层以进行基础查询。我们使用 32 个基础查询和 32 个视觉查询,每个查询的维度为 768,这与 MQ-Former 的隐藏维度一致。通过这种方式,输出查询表示比冻结视觉特征的大小小得多(例如,ViT-L/14 为 257 × 1024,GroundingDINO-T 为 260 × 900)。

3.2.通过多任务预训练引导视觉语言表示对齐

在预训练阶段,我们将 MQ-Former 连接到冻结图像编码器和视觉细化器,通过自注意力掩码矩阵控制查询和文本表示的相互可见性,以执行各种预训练任务。参考 BLIP-2 [25],我们联合优化了四个目标来预训练 MQ-Former,如图 3 所示,这会影响视觉查询和基础查询,以提取更能提供空间和文本表示信息的视觉特征。形式上,为了量化每个查询标记的作用,我们分别通过池化层传递视觉查询和基础查询的输出嵌入,并将池化输出 Hv 和 Hg 连接为 HI 。类似地,我们将 [BOS] 和 [CLS] 标记的输出嵌入 Hsp 和 Hic 连接起来形成 HT ,表示空间信息和图像标题。四种损失描述如下。

图 3.学习目标视觉-语言表征对齐阶段。我们联合优化四个目标,这些目标强制执行查询(一组可学习的嵌入)以提取与空间信息和图像标题最相关的视觉表示。每个目标的自注意力屏蔽策略用于控制查询文本交互。

图像-文本对比学习(ITC)通过鼓励正图像-文本对与负图像-文本对相比具有相似的表示来学习对齐细粒度的视觉和文本表示。我们相互屏蔽文本和图像转换器以避免信息泄漏,并计算视觉表示 HI 和文本表示 HT 之间的图像文本相似度。我们将 softmax 归一化的图像到文本和文本到图像的相似度表示为 pi2t 和 pt2i,将真实的单热相似度表示为 yi2t 和 yt2i。图文对比损失定义为 p 和 y 之间的交叉熵 H:

图像文本匹配 (ITM) 是一种二元分类任务,它将嵌入 Hv 和 Hg 的池化查询传输到分类器中,然后使用 softmax 来预测两类概率pitm v 和pitm g 。它的目的是学习多模态图像文本表示,以捕获视觉和语言之间的粗粒度和细粒度语义对齐。我们采用区域化的双向自注意力掩模,允许视觉查询和图像标题之间以及基础查询和空间表示之间的相互交互,同时防止剩余的标记相互附着。令 yitm v 和 yitm g 表示代表真实标签的二维 one-hot 向量。 ITM 损失为:

图像接地字幕生成 (ICG) 优化了 MQ-Former,使其能够仅根据视觉查询和接地查询的视觉特征生成图像字幕。由于文本标记无法直接与图像编码器和视觉细化器交互,ICG 任务使具有多模态泛化能力的 MQ-Former 能够将抽象视觉特征转换为连贯的图像标题。与 UniLM [13] 类似,我们利用跨模式因果自注意力掩模来控制查询-标题交互,并相应地屏蔽空间信息。我们还将 [CLS] 替换为 [DEC] 以表示语言建模任务。令 yicg 表示屏蔽图像标题,picg 表示屏蔽标记 Tic 的预测概率。 ICG 最小化交叉熵损失:

掩模空间预测(MSP)旨在通过细粒度多模态对齐来学习语义感知的视觉对象。参考全词掩码策略,我们采用15%的概率将所有标记随机替换为具有特殊标记[MASK]的整个视觉对象的空间表示,要求模型通过局部视觉特征恢复被掩码的标签和边界框。我们使用跨模态双向自注意力掩码,其中模态内标记是相互可见的,并且空间表示可以与查询相关联,但图像标题完全被掩码。我们还将 [BOS] 替换为 [MLM] 以表示掩码语言建模任务。令 ymsp 表示屏蔽空间表示,pmsp 表示屏蔽标记 Tsp 的预测概率。 MSP 最小化交叉熵损失:

3.3.通过语义感知视觉对象引导视觉到语言生成学习

在指令微调阶段,我们将带有冻结图像编码器和视觉细化器的 MQFormer 连接到 LLM,并应用可训练的投影矩阵将输出查询嵌入 HI 转换为软视觉标记,这些标记保持与单词嵌入相同的维度空间法学硕士。当 MQ-Former 学会在预训练期间将信息丰富的空间和语言表示集成到学习的查询中时,它可以为 LLM 提供有用的信息,有利于理解和感知全局视觉特征和语义感知的视觉对象。我们采用低秩适应(LoRA)[19],通过训练多个低秩矩阵来适应 LLM,以便与人类指令和软视觉提示有效对齐。这有利于LLM捕获多粒度、多视角的视觉信息,有利于模型更精确地整合与指令相关的图像细节,并掌握接收和输出空间表示的能力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值