论文阅读2 CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora

1、介绍

本文标题翻译为《CFIR:针对大型语料库的快速有效的长文本到图像检索》。文本到图像检索的目的是基于文本查询到相关的图像(数字图书馆、电子商务等),现有多模态大型语言模型(MLLMs)计算成本高,并且有注入式嵌入导致的效率问题。
本文主要介绍了一种名为CFIR(Coarse-to-Fine Index-shared Retrieval,粗到细索引共享检索)的框架,旨在减少长文档中的歧义,提高大规模长文本到图像索引的效率和结果。

2、数据集

本文提到的数据集有:
1.AToMiC:用于大规模长文本到图像检索任务。专注于部分级别的图像-文本关联,强调使用没有图像的英文维基百科部分,以提供更现实的文本-图像上下文。
2.MSCOCO:MSCOCO包含有短标题的图像,通常用于图像描述和图像-文本检索任务。
下图是两个数据集的实例比较:
AToMiC数据集专注于长文本到图像的检索,而MSCOCO是一个更常见的数据集,包含较短的标题和图像。
下图左侧展示了两种数据集的平均文本标记数的比较,右侧展示了两种数据集中训练和测试图像的数量。
在这里插入图片描述

3、背景

MLLMs:多模态大型语言模型,如BEiT-3等。这些模型为视觉和文本输入生成嵌入,将他们映射到共享空间。映射函数通常被设计为注入式。
LLIR任务:大规模长文本到图像检索,从大量图像数据库中,根据长文本查询检索出与之相关的图像。
嵌入:在NLP中,通常指将单词或者短语转换为高维向量的过程
注入式嵌入:在机器学习或深度学习模型中,将额外的上下文信息或特征以嵌入的形式注入到模型的输入中,增强模型对数据的理解能力。包含上下文嵌入、实体嵌入和情感嵌入等。
ER:实体基础排名,通过从长文本查询中提取实体(人名、地点等)并为每个唯一命名的实体生成图像的Top-K排名来实现这一目标。这一过程将检索任务从单一查询对单一目标转变为多查询对多目标的范式,从而适应长文档和图像的内在模糊性。
SR:摘要基础重排,通过将长文档摘要为查询,并使用来自预计算共享索引的基于实体的图像候选,进一步减少了模糊性,精细化图像排名。
Top-K排名:指在所有可能的候选项中,根据一定的排名机制,选取分数最高的前K个结果。
语义模糊性:一个词或短语在不同上下文中可以有多个意义,使得确定其在特定情境下的确切含义变得困难。
解耦编码器:将输入数据的不同方面或特征分离开,独立地控制和理解这些特征。核心思想是学习到一种数据表示,其中每个维度或特征向量独立地编码了数据的一个特定方面或属性。
数据流:数据在网络中的传递路径,即输入数据如何通过网络层进行前向传播,以及在训练过程中如何通过反向传播进行误差的传递和参数的更新。
BEiT-3模型:采用了Transformer架构,处理和理解图像和文本数据,使其适用于多模态任务,如图像描述、视觉问答和文本到图像检索。

4、D-BEiT-3模型

本文提出解耦的BEiT-3(D-BEiT-3)作为CFIR中的MLLM编码器,来更好的适应LLIR任务。此模型基于以下三个方面考虑:
1.此框架去除了视觉-语言(VL)expert,解耦了视觉和文本输入的编码,并基于模型的相似性推理转变为基于模型的距离计算。
2.原始的BEiT-3模型在推理阶段就需要对查询与每个数据库项进行全面配对,然后将这些配对输入BEiT-3模型以预测匹配分数,固有的模糊性会导致模型性能不佳。通过消除VL能够更适合LLIR任务中较为宽松的语义对齐要求。
3.模型参数减少了30.4%。
下图展示了BEiT-3模型原始框架与D-BEiT-3模型之间的差异:
在这里插入图片描述

原始BEiT-3架构D-BEiT-3架构
多头自注意力(Multi-Head Self-Attention)模块,用于处理输入序列。共享权重(Shared Weights),用于跨模态的特征提取和表示。
模态专家(Modality Experts),一组针对不同模态(如视觉和语言)定制的前馈网络。去除了视觉-语言(Vision-Language)专家,不再使用联合的编码器处理视觉和语言输入。
同时处理视觉(图像)和语言(文本)输入,通过一个联合的编码器来提取跨模态的特征表示。通过解耦视觉和语言编码器,采用了独立的编码路径来处理图像和文本数据。

5、CFIR模型

下图为CFIP框架的整体架构,包括其主要组件和数据流:
在这里插入图片描述1.实体提取:使用自然语言处理工具(如spaCy)从长文档中提取实体。这些实体是文档中的关键信息点,如人名、地点、特定对象等。
2.Decoupling-BEiT-3:语言编码器处理提取的实体,为它们生成嵌入向量,这些嵌入向量用于与图像集合中的图像进行匹配;视觉编码器为大量图像生成嵌入向量。
3.Dot Product:使用点积计算实体嵌入与图像嵌入之间的相似性,以确定图像的相关性,为每个实体生成Top-K图像排名索引。
4.Filter&Union:将不同实体的Top-K图像候选进行过滤和联合,形成一个统一的图像候选集。
5.第一阶段 实体基础图像排名(ER):使用实体基础Top-K图像排名索引,筛选出与查询实体最相关的图像候选。通过从一对一转变为多查询对多目标的检索范式来实现的。
6.第二阶段 摘要基础图像重排(SR):使用BART等文本摘要生成器,将长文档摘要为更简洁的查询→通过Decoupling-BEiT-3语言编码器编码,生成查询嵌入→使用查询嵌入和图像嵌入之间的点积计算,重新排列图像候选,以提高检索的准确性。

6、实验

实验使用BEiT-3模型的简化版本作为CFIR中的编码器,分别称为CFIR-B和CFIR-L,B表示基础尺寸,L表示大尺寸,其中H表示隐藏层的大小。与两种最新的多模态大型语言模型进行了比较:Decoupling-BEiT-3和OpenCLIP。
在这里插入图片描述下图展示了在更大规模的数据集上,不同模型的性能和效率:
在这里插入图片描述
消融实验
在这里插入图片描述

指标名称解释
Cache是否使用图像嵌入缓存
Index是否使用基于实体的预计算索引
Entity是否在实体基础排名(ER)阶段使用实体
Summary是否在基于摘要的重新排序(SR)阶段使用文档摘要
Doc是否使用原始文档
MRR@10在前10个检索结果中的平均倒数排名,衡量模型准确性的指标
R@1000在前1000个检索结果中的召回率,衡量正确结果被检索出来的概率
T-t每个训练周期所需的时间,以小时为单位
R-t每个查询的检索时间,以毫秒为单位

下图展现了CFIR框架的实际应用
在这里插入图片描述
该图从包含398个token的原始长文档开始,全面展示了实体提取和摘要的关键阶段。从长文本中提取了80个实体,突出了有助于后续检索任务的基本元素。并且还展示了CFIR框架的ER和SR阶段生成的相关图像的排名结果。
此外,生成了一个56个token的简短摘要,将文档缩短为简洁的查询。

  • 31
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值