多模态复合编辑检索技术综述: 概念, 应用, 方法, 实验, 挑战, 趋势

摘要—在现实世界中,信息丰富多样,跨越不同的模态,理解和利用各种数据类型以改进检索系统是研究的关键焦点。多模态复合检索整合了文本、图像和音频等多种模态,以提供更准确、个性化和情境相关的结果。为了促进对这一有前景方向的深入理解,本综述深入探讨了多模态复合编辑和检索,涵盖了图像-文本复合编辑、图像-文本复合检索以及其他多模态复合检索。在本综述中,我们系统地组织了应用场景、方法、基准、实验和未来方向。多模态学习是大模型时代的热门话题,并且在PAMI杂志上也见证了一些关于多模态学习和基于变换器的视觉-语言模型的综述。据我们所知,本综述是关于多模态复合检索文献的首次全面回顾,它是多模态融合对现有综述的及时补充。

索引术语—多模态复合检索,多模态融合,图像检索,图像编辑。

1 引言

在当今的数字环境中,信息通过各种渠道传递,如文本、图像、音频和雷达等,导致数据量和复杂性的显著增加。随着数据的指数级增长,处理和整合多样化信息的挑战变得至关重要。高效检索个性化和相关信息变得越来越具有挑战性。传统的单一模态检索方法依赖于单一模态,如图像或文本作为查询。然而,这些方法往往难以完全捕捉现实世界信息检索场景的复杂性和微妙性。这一局限性促使了多模态复合图像检索的出现,这是一个超越单一模态界限的有前景的框架。通过利用各种数据类型的互补优势,多模态复合检索系统增强了对用户查询和上下文的理解,从而提高了检索性能和用户满意度。

如图1所示,多模态复合检索涉及合并和分析不同数据形式(例如文本、图像、音频)以检索信息的复杂过程。这种方法在多个现实世界环境中非常有价值,包括多媒体内容、社交媒体平台和电子商务等领域。此外,其应用涉及专业领域,如医学图像检索、文档检索和新闻检索。通过使用多样化的多模态查询,这些技术产生灵活和准确的结果,从而增强用户体验并促进知情决策。因此,多模态复合检索在信息科学、人工智能和跨学科应用中具有重要的潜力和研究价值。大多数现有的多模态复合检索方法主要关注整合图像和文本以实现期望的结果。早期方法采用卷积神经网络(CNN)对图像进行编码,采用长短期记忆(LSTM)网络对文本进行编码。随着强大的变换器的兴起,如视觉变换器(ViT)、Swin变换器和BERT,提出了许多基于变换器的多模态复合检索方法以增强图像检索性能。此外,视觉-语言预训练(VLP)通过弥合文本描述和视觉内容之间的语义差距,改变了与图像理解和检索相关的任务。各种基于VLP的多模态复合图像检索方法显示出了有希望的结果。此外,图像-文本复合编辑方法允许用户通过自然语言指令直接修改图像或生成新内容,实现与用户意图一致的精确检索。

2 预备概念和应用

2.1 预备概念

如图1所示,多模态复合检索旨在通过整合文本、图像和其他数据形式来提高信息检索的灵活性和整体用户体验。这项技术的核心优势在于利用不同数据模态的互补优势来满足多样化的用户需求和认知偏好。图像-文本复合检索。图1(a)描述了图像-文本复合检索过程,它将图像和文本模态作为输入来检索目标图像。具体来说,输入包括一个参考图像和描述性文本,为检索目标图像提供指导。参考图像包含了复杂的抽象信息,有效地捕捉了颜色、纹理和空间关系等细节。相反,语言能够提供详细和明确的描述,允许表达在图像中可能不立即显现的特定属性、关系和上下文。通过结合这些互补的模态,系统能够构建对目标对象更全面的表现。其他多模态复合检索。图1(b)展示了多模态复合检索的更广泛范围,扩展了图像和文本之外,包括了额外的模态,如音频、鼠标轨迹、分割图、关键姿势、颜色图和深度图。这种整合提供了对用户搜索意图更细致的理解,显著提高了检索结果的精确度和相关性。通过利用不同模态提供的全面数据,系统能够准确识别和检索目标信息。

2.2 应用场景

多模态复合检索的应用范围广泛,涵盖了多个行业和领域。多模态复合检索技术的几种潜在应用如下。时尚和电子商务。文本和图像模态的整合在时尚行业显示出巨大的潜力。这种方法适应了各种认知偏好和个人需求,允许用户根据特定特征如颜色、图案和风格搜索物品,如服装。医疗诊断。在医疗保健领域,多模态检索系统可以帮助临床医生通过合并特定的文本描述和患者扫描图像来定位相关的图像或案例研究,从而促进更准确的诊断和知情的治疗规划。智能城市和交通管理。城市管理系统集成了视频监控、捕获的图像和遥感数据,可以通过文本查询快速检索相关图片或视频(例如,穿红色衬衫的人或最近的交通事故)。该系统还可以整合传感器数据,提供全面的情况分析,适用于交通管理、目标搜索和紧急响应。智能家居和个性化服务。在智能家居环境中,用户可以通过语音命令(例如,浪漫晚餐设置)表达他们期望的氛围,允许系统检索和播放符合所请求氛围的音乐或视频。内容创作。设计师可以描述一个设计概念,促使系统自动检索和组合相关的草图、色彩方案和音频样本,以生成一系列创意提案。例如,通过提供简单的草图和文本描述,如现代办公空间,系统可以提供即时反馈。智能法律咨询和文件检索。用户可以通过语言查询法律问题,促使系统自动检索相关的法律文本、案例图像和文件,以生成专业的法律建议。对于复杂案例,系统可以基于多模态输入迅速汇编相关的案例法和法律解释。新闻场景。文本搜索功能可以让用户快速访问实时热门新闻,回顾历史事件,编制专题报告,并可能实现个性化的新闻推荐。总之,多模态复合检索是一项高度多功能的技术,具有广泛的应用潜力。它不仅提高了信息检索的准确性和用户体验,还为个性化和情境感知的应用提供了关键支持。随着技术的不断发展,多模态复合检索在各个领域中扮演着越来越重要的角色。

3 方法

3.1 图像-文本复合编辑

图像-文本复合编辑(ITCE)基于给定的文本提示操作图像中的特定元素,这与图像-文本复合检索密切相关。这被称为文本条件图像生成,有选择地修改与文本输入相关的图像部分,同时保持无关区域不变。由于其多功能性和迭代增强的潜力,ITCE在各个领域都有广泛的应用。图像-文本复合编辑的两大类别包括生成对抗网络(GANs)和扩散模型,如表1所示。

3.1.1 基于GAN的方法

条件GAN(cGAN)方法。在基于GAN的方法中,条件GAN(cGANs)使用额外的信息(例如,文本指导)作为条件输入来生成特定图像。我们将基于cGAN的方法分为两类:单次生成方法和多次生成方法。单次生成。大多数现有的图像-文本复合编辑任务是静态的单次生成。其中,一些研究专注于增强生成器G组件。例如,SISGAN利用编解码器架构和生成器中的残差转换单元,其中编解码器和转换单元编码图像和文本的组合特征,基于此,解码器合成图像。其他研究专注于增强鉴别器D。例如,TAGAN采用文本自适应鉴别器,在单词级别评估文本描述与图像之间的一致性,使得能够进行细粒度修改,精确地针对文本相关区域,同时保留无关区域。还有一些研究专注于改进生成器G和鉴别器D,基于这样的前提,即每个图像可以分解为域不变内容空间和域特定属性空间。它们通过建模高维内容特征来提高生成性能。例如,TIM-GAN将文本作为神经操作符来修改输入图像在特征空间中的图像,它通过预测的空间注意力掩模合成编辑后的图像。多次生成。多次生成方法通过一系列指令进行迭代修改,分多个步骤执行。SeqAttnGAN利用神经状态跟踪器在序列的每一步对先前的图像和相应的文本进行编码,使用顺序注意力机制。RAM利用循环注意力模型整合图像和语言特征。它为每个图像区域引入了一个终止门,动态决定在每次推理步骤后是否继续从文本描述中提取信息。Long and Short-term Consistency Reasoning Generative Adversarial Network(LS-GAN)具有Context-aware Phrase Encoder(CPE)和Long-Short term Consistency Reasoning(LSCR)模块,捕捉长期视觉变化并使新添加的视觉元素与语言指令对齐。IR-GAN包括一个推理鉴别器,以评估现有视觉元素、视觉增量和相应指令之间的一致性。

StyleGAN基础方法。StyleGAN生成高质量图像通过在良好解耦的潜在空间内操作,以其能够产生高保真图像而闻名。许多方法利用StyleGAN的潜在空间来有效解耦和操作粗略和精细视觉特征。例如,TediGAN嵌入文本信息到潜在空间并通过修改潜在代码和搜索操作方向来增强编辑性能,并且在预训练的GAN模型中插值潜在向量。传统方法通常需要大量标记数据来识别GAN潜在空间中的有意义方向,这需要相当多的人力努力。利用CLIP强大的图像-文本表示能力可以帮助缓解这个问题。一些方法结合了StyleGAN的图像生成能力和CLIP的通用图像-文本表示能力来识别编辑方向。这些基于StyleGAN的方法可以分为两类:“无掩模”和“有掩模”根据是否使用掩模来指导生成模型。至于那些没有额外掩模的方法,StyleCLIP引入了三种图像-文本复合编辑策略,例如潜在优化、潜在映射器和全局方向。具体来说,潜在优化通过最小化CLIP空间中的损失来调整图像的潜在代码,以语义对齐给定的文本。潜在映射器涉及训练一个网络来预测潜在空间中的操作步骤,这取决于起始位置。全局方向将文本提示转换为潜在空间中的通用映射方向,实现细粒度和解耦的视觉编辑。TediGAN编码图像和文本到潜在空间以执行风格混合。

StyleMC在每个提示的基础上进行微调,通过结合CLIP损失和身份损失发现稳定的全局方向。传统上,这两个空间之间的潜在映射是手动制作的,这限制了每个操作模型仅适用于特定的文本提示。为了克服这个限制,FFCLIP引入了自由形式CLIP(FFCLIP),一种通过交叉注意力机制创建自动潜在映射的方法,涉及语义对齐和注入,使单一操作模型能够处理自由形式的文本提示。DeltaEdit结合了CLIP DeltaSpace,它在语义上对齐两幅图像之间的视觉特征差异与它们相应描述中的文本特征差异。CLIP2StyleGAN连接了预训练的StyleGAN和CLIP的潜在空间,自动推导StyleGAN中的语义标记编辑方向。它通过利用CLIP图像空间来识别潜在的编辑方向,使用CLIP文本编码器来解耦和标记这些方向,然后将标记的、解耦的方向映射回StyleGAN潜在空间,以实现各种无监督的语义修改。一些方法使用掩模来完成操作。HairCLIP首先使用StyleGAN反演方法“e4e”获得输入图像的潜在代码,然后使用映射网络预测潜在代码的变化和编辑条件,最终将修改后的潜在代码输入到预训练的StyleGAN中以生成图像。

Paint by Word利用CLIP提供对生成图像的反馈,根据给定的掩模在用户指定的区域内执行操作。TIERA利用基于区域的空间注意力机制来准确识别编辑区域。它首先使用CLIP对文本输入进行编码,然后使用一个映射模块根据文本嵌入调整原始图像的风格代码。SegmentationGAN使用图像分割网络来确定文本相关和不相关区域,使用CLIP作为损失函数来确保修改和未修改区域之间的一致性。与早期方法相比,这些方法在很大程度上依赖于在潜在空间中解耦各种属性,FEAT使用学习到的注意力掩模来集中注意力于编辑区域,并将修改限制在特定的空间区域。PPE首先预测与指定文本命令相对应的可能纠缠的属性,然后引入一个解耦损失。ControlGAN基础方法。ControlGAN允许在基于自然语言描述的特定方面控制生成过程ControlGAN基础方法。ControlGAN允许在基于自然语言描述的特定方面控制生成过程,以合成高质量图像。ManiGAN在ControlGAN的多阶段架构基础上构建,引入了一个包括文本-图像仿射组合模块(ACM)和细节校正模块(DCM)的多级框架。Segmentation-aware GAN结合了图像分割网络到生成对抗框架中,类似于ManiGAN。分割编码器基于预训练的Deeplabv3,检测输入图像的前景和背景,提高了模型生成上下文准确和视觉连贯图像的能力。其他基于GAN的方法。从开放领域文本提示中创建和编辑图像一直是一个挑战,通常需要昂贵且特别设计的模型。VQGAN-CLIP采用了一种创新的方法,使用CLIP引导VQGAN,调整候选生成与引导文本之间的相似性。OpenEdit是第一个探索开放领域图像编辑的方法,使用开放词汇指令。DE-Net动态组装各种编辑模块以适应不同的编辑需求。CAFE-GAN专注于编辑与目标属性相关的面部区域,通过识别具有目标和补充属性的特定区域。IIM构建了一个神经网络,该网络在潜在空间内的图像向量上操作,使用指令向量将源向量转换为目标向量。

3.1.2 基于扩散的方法

我们根据引导机制将基于扩散的方法分类,即基于掩模的方法、无分类器方法和基于CLIP的方法。基于掩模的方法。基于掩模的方法使用掩模来定位需要修改的特定区域。例如,Blended Diffusion结合了CLIP引导和去噪扩散概率模型,通过引入不同级别的噪声来无缝混合编辑和未触动的图像区域。后续的工作自动生成掩模,使用交叉注意力图替换手动掩模。这些方法可以进一步分为手动掩模、自动掩模和可选掩模方法。手动掩模。Glide比较了CLIP引导和无分类器引导,发现后者更受青睐,因为它能够利用内部知识进行引导,从而简化了分类器经常难以处理的条件过程。Blended Diffusion结合了CLIP引导和去噪扩散概率模型,通过在不同级别引入噪声来无缝混合编辑和未触动的图像区域。自动掩模。InstructEdit使用自动掩模进行精确编辑,通过使用ChatGPT和BLIP2将文本指令转换为分割提示、输入标题和编辑后的标题,使用Grounded Segment Anything生成掩模,并使用Stable Diffusion完成编辑后的图像。

DiffEdit自动推断掩模以指导文本条件扩散模型中的去噪过程,最小化非预期编辑。Shape-Guided Diffusion从提示中生成对象掩模,并使用Inside-Outside Attention来限制注意力图。Custom-Edit通过优化与语言相关的参数来定制扩散模型,并应用P2P和Null-text inversion技术进行精确编辑。IIR引入了Image Information Removal模块,在增强文本相关细节的同时保留非文本相关内容。可选掩模。PRedItor使用混合扩散模型(HDM),使用CLIP嵌入进行更准确的反演,并实现无需额外输入或优化的结构保持编辑。SDEdit通过从基础图像的噪声版本开始采样过程来编辑图像。然而,这种方法在细节恢复方面效果较差,特别是当需要显著的像素级变化时。无分类器方法。无分类器方法指导生成过程通过直接调整来自条件和无条件模型输出的结果,而不是使用预训练的分类器来引导扩散过程。为了减轻在单个图像上微调预训练扩散模型时的过拟合问题,SINE引入了一种基于无分类器引导的新颖模型引导方法,将从在单个图像上训练的模型中获得的知识蒸馏到预训练的扩散模型中。

Prompt-to-Prompt增强了编辑质量,利用了文本到图像模型中间注意力矩阵编码的视觉语义数据。然而,这种技术依赖于注意力权重,限制了其应用到扩散模型生成的图像。MasaCtrl通过将传统自注意力转换为相互自注意力来增强文本-图像一致性。Imagic是一个预训练的文本到图像扩散模型,首先优化文本嵌入以产生类似于输入图像的图像。InstructPix2Pix结合了GPT-3和Stable Diffusion的优势,创建了一个图像编辑数据集,捕捉了来自语言和图像的互补知识。这个训练过程的成功高度依赖于数据集的质量和扩散模型的性能。Unitune建立在图像生成模型可以通过在单个图像上微调来适应图像编辑的观点上。PTI设计了Prompt Tuning Inversion,这是一种高效准确的文本驱动图像编辑技术。

Plug-and-Play是一个现代模型,它利用中间层的注意力图将一个图像的特征转移到另一个图像。MDP引入了一个框架,该框架划分了适当操作的设计空间,确定了五种不同类型:中间潜在、条件嵌入、交叉注意力图、引导和预测噪声。基于CLIP的方法。DiffuseIT提出了一种基于扩散的无监督图像翻译方法,利用解耦的风格和内容表示。受Splicing ViT启发,DiffuseIT结合了一个损失函数,该函数利用预训练ViT模型多头自注意力层的中间键来指导DDPM模型的生成过程,从而确保内容保持和语义修改。DiffusionCLIP使用确定性的DDIM噪声过程来准确识别生成目标图像所需的特定噪声。

3.1.3 总结

GANs以其生成高保真图像的能力而闻名,使其成为图像-文本复合编辑的流行选择。这种方法中的关键技术包括解耦潜在空间和优化生成器参数以提高跨模态特征对齐。通过利用CLIP的表示能力,GANs可以更有效地识别潜在方向并测量与文本提示的相似性。这些能力允许基于文本描述进行精确和受控的图像操作。扩散模型最近作为一种强大的替代方案出现,通过迭代去噪从噪声中合成高质量图像。通过与各种图像-文本方法集成,扩散模型显著推动了图像编辑的边界,特别是在质量和灵活性方面。虽然GANs擅长生成高分辨率图像并进行控制编辑,扩散模型提供了一种更系统和迭代的图像生成方法,特别是在复杂场景中,关键区别在于GAN的对抗训练和扩散的渐进去噪。一些挑战和视角总结如下。

  1. 一致性维护:未来的技术应专注于通过确保文本无关的图像区域保持不变,同时有选择地修改文本描述中的属性,来维护一致性。这对于在目标编辑期间保持整体图像的连贯性至关重要。

  2. 精度增强:提高精度至关重要,这包括能够在图像中的多个对象上操纵特定属性。这包括细化编辑的粒度,特别是在具有多个对象的复杂场景中。

  3. 在复杂场景中的鲁棒性:增强模型在开放领域场景和复杂场景中执行现实修改的能力是另一个关键挑战。随着场景复杂性的增加,编辑后保持现实感的能力变得越来越重要。

3.2 图像-文本复合检索

在图像-文本复合检索领域,目标是利用参考图像和指定参考和目标图像之间差异的文本描述来识别目标图像。文本用于修改参考图像。由于这项任务涉及通过引入文本中的修改指令来对齐参考图像和目标图像,因此这项任务也可以称为“文本引导的图像检索”。如图3所示,复合图像检索的标准框架包括三个主要组件:特征提取、图像-文本组合模块和对齐。传统上,图像表示是从卷积神经网络(CNN)或视觉变换器(ViTs)的最后一层获得的,而文本编码器通常依赖于循环神经网络(RNNs)、LSTM、GloVe、BERT和GRUs。最近,随着大型模型的出现,CLIP的编码器由于其对齐良好的文本和图像表示而变得越来越受欢迎。

通过全面的回顾,我们根据图像编码器的主干对图像-文本复合检索方法进行了分类,包括基于CNN的(§3.2.1)、基于变换器的(§3.2.2)、基于大型模型的(§3.2.3)和混合方法(§3.2.4)。从框架的角度来看,一些方法专注于设计组合模块以提高性能,而其他方法强调额外的模块来提高性能,还有一些方法旨在增强整体框架。图像-文本复合检索(ITCR)的发展经历了显著的演变,从基于CNN的到基于变换器的主干,最近又发展到大型模型。这一进展是由计算机视觉和自然语言处理中的深度学习的进步所驱动的。像CLIP和BLIP这样的大规模预训练跨模态模型进一步提高了ITCR,利用其在多模态表示方面的强大的能力。为了清晰起见,我们在表2中提供了ITCR方法的详细总结。

3.2.1 基于CNN的方法

卷积神经网络(CNNs)在提取图像的层次化特征方面发挥了关键作用。[6]已经证明,CNN的上层的激活可以作为图像的复杂视觉内容描述符。具体来说,通过在最后一个CNN层使用全局池化,可以在ImageNet上预训练的CNN(例如,AlexNet、VGG、ResNet、DenseNet、GoogleNet和MobileNet)用于获得图像嵌入,并在各种计算机视觉任务中取得了显著的成功。因此,许多基于CNN的方法采用CNN主干作为图像编码器来进行ITCR任务。为了实现更细粒度的特征提取,SAC使用多个层次来捕获粗略和细粒度的特征。LBF使用Faster R-CNN来改善文本和图像特征的组合。这些特征的融合通常被分类为粗略和细粒度方法。粗略融合,如[4]、[27]、[30]、[44]、[77]、[88]、[106]、[115]、[190]、[214]、[217]所提出的,涉及将每个模态的高级特征整合到一个统一的表示中,这通过保持整体上下文来增强检索性能。相比之下,细粒度融合,如[21]、[92]、[201]、[221]、[240]所提出的,将特征分割成独立的模块(例如,风格和内容模块)然后将输出组合成最终表示。

粗略融合方法。粗略融合是一种在多模态复合检索系统中常用的技术,用于整合信息。它涉及将每个模态提取的高级特征合成一个统一的表示。目标是捕获每个模态的关键信息,同时保持整体上下文,从而提高检索性能。

门控机制。在文本图像残差门控(TIRG)中,首次提出了文本引导的图像语义对齐任务,通过使用学习到的门控残差连接和残差连接,有选择地基于文本描述修改图像特征,同时保留与文本无关的图像部分。许多后续方法采用了TIRG的门控机制作为它们的组合模块。JVSM在视觉语义嵌入框架内联合学习统一的联合视觉语义匹配。它旨在编码视觉数据(即输入图像)和文本数据(即属性描述)之间的语义相似性。CurlingNet设计了两个网络,名为Delivery filters和Sweeping filter,前者在嵌入空间中传递参考图像,后者强调目标图像中与查询相关的组件,旨在找到一组目标图像的更好排名。DCNet引入了双组合网络,通过考虑前向(组合网络)和反向(校正网络,它在嵌入空间中对参考和目标图像之间的差异进行建模,并将其与文本查询嵌入对齐)路径。EER通过系统地建模两个关键子过程:图像语义擦除和文本语义补充,来解决复合图像检索任务。为了探索不同模态之间的内在关系,Yang等人引入了联合预测模块。为了缓解由不同预训练模型和不同潜在空间引起的语义不一致问题,AET将参考图像和目标图像视为一对转换图像,并将修改文本视为隐式转换。为了解决数据稀缺和泛化能力低的问题,RTIC使用图卷积神经网络(GCN)作为正则化器,通过促进相邻邻居之间的信息传播。考虑到训练数据的特征显著影响训练结果,并考虑到传统数据通常导致过拟合并表现出低多样性的训练分布,数据增强变得至关重要。因此,Huang等人提出了梯度增强(GA)模型,这是一种隐式数据增强,灵感来自对抗性训练以抵抗扰动,以及梯度变化也可以在某种程度上反映数据变化的合理性。注意力机制。LBF通过一组局部实体表示参考图像,并建立修改文本中每个单词与这些局部区域之间的关系。这种方法实现了文本和图像之间的双向相关性。然后它通过结合跨模态注意力模块来执行融合过程。

JGAN引入了一个统一的模型,该模型同时使用跳跃图注意力网络和对抗网络来操纵基于修改文本的图像属性,并学习文本自适应表示以进行查询。ARTEMIS将修改文本视为参考图像和目标图像视觉表示的权重分配器,并设计了一个显式匹配模块和一个隐式相似性模块。CRR引入了一个记忆增强的跨模态注意力模块来整合图像和文本特征,并设计了两个图推理模块来分别建立查询和目标内部的模态内关系。CIRPLANT是一个基于变换器的模型,它利用预训练的视觉和语言模型Oscar,并构建了一个多层变换器作为组合模块来修改视觉特征。MAAF提取代表每个输入模态元素的向量令牌,然后通过注意力模型将这些令牌编译成统一的序列。其他。ComposeAE基于自编码器提出了一个模型,并在优化过程中引入了一个显式的旋转对称性约束。AMC是一个自适应多专家协作网络,其路由器可以动态调整激活并实现参考图像和文本嵌入的自适应融合。

SceneTrilogy是一个统一框架,它联合建模草图、文本和照片,以无缝支持几个下游任务,如细粒度草图和基于文本的图像检索。RBIRR能够执行与多个对象相关的实例检索,提供对象的类别或属性以及它们之间的位置约束,包括空间位置、大小和关系。SSIS采用了“先生成,然后检索”的范式,训练一个卷积神经网络来合成捕获用户画布查询的空间语义约束的视觉特征。EISSIR是一个基于语义分割的交互式图像检索系统,它将用户绘制的分割图解释为二元概率图。细粒度融合方法。鉴于引导文本可能从描述具体属性变化,进行细粒度融合的能力是必要的。设计一个能够处理来自多层的信息并使用多个独立模块(例如内容和风格模块)进行融合的框架是有利的。低级和高级。SAC关注像素和文本的重要性,并通过一个两步过程解决文本条件图像检索(TCIR)的挑战。

Trace引入了一个层次化特征聚合模块来学习复合视觉-语言表示,这可以被认为是SAC的一个变体。多轮框架包括三个模块:复合表示模块、比较分析模块和时尚属性模块,以学习复合表示。HCL将图像编码为三个层次的表示(例如全局、实体和结构),然后通过层次化组合学习进行融合。在VAL中,使用了可以无缝集成到CNN中的复合变换器,以选择性地保留和基于语言语义转换视觉特征。与VAL类似,DATIR也组合了多个层次的特征,这是一个分布对齐的基于文本的图像检索(DATIR)模型,结合了注意力互信息最大化和层次互信息最大化。内容和风格。将图像表示为其风格和内容组件,然后分别转换每个组件并合并以进行检索。CoSMo基于分别调整参考图像的内容和风格的概念。不确定性。关注粗粒度检索的对齐,通过考虑多粒度不确定性。它将细粒度和粗粒度检索整合为匹配具有小波动和大波动的数据点,并进一步提出了不确定性建模。全局和局部。CLVCNet有效地整合了局部和全局组合,并实现了相互增强机制。在TIS中,引入了对抗性学习来学习查询的判别表示,即参考图像和修改文本的组合。FashionVLP使用CNN作为图像特征提取器,BERT用于文本编码器,VinVL用于融合。VinVL是一个多层视觉-语言变换器,具有自注意力机制。

3.2.2 基于变换器的方法

变换器及其变体由于其全局自注意力机制在建模长期依赖方面的能力,已经深刻推进了特征学习领域。Vaswani等人首次提出了基于变换器的编码器-解码器结构,配备了多头自注意力层。这种配置擅长有效地学习数据内的上下文关系。与ResNet相比,视觉变换器(ViT)和Swin Transformer由于更大的预训练数据,具有更强的表示能力,这有助于模型对未知分布的泛化。采用变换器架构的一些方法采用Swin Transformer来封装视觉特征,并在许多视觉任务中表现出色。与其它视觉变换器相比,Swin Transformer可以构建层次化图像特征,并且具有对图像大小的线性计算复杂度。AACL采用了一个加性自注意力层,以选择性地保留和基于文本语义转换多级视觉特征,以获得富有表现力的复合表示。ComqueryFormer利用交叉模态变换器作为传统的组合模块。通过将查询文本分为修改和辅助类型,CRN是一个层次聚合变换器,用于跨关系学习,以实现关系感知表示。

3.2.3 VLP基础方法

如表2所示,视觉-语言预训练(VLP)方法利用大规模视觉-语言模型(VLMs)如CLIP和BLIP的力量,通过引入大量预训练数据来提高检索性能。为了清晰起见,我们将基于VLP的ITCR方法分类为基于融合的方法和基于逆向的方法。在基于融合的方法中,VLMs的编码器被用来提取更好的特征表示。在基于逆向的方法中,VLMs被用来生成参考图像的详细描述。例如,BLIP在生成全面的文本表示方面表现出色,它使用大型语言模型(LLMs)如Llama和GPT。这些LLMs将生成的描述与特定的文本查询结合起来,为目标图像制作精确的标题。随后,VLM CLIP在检索目标图像方面发挥了关键作用,它利用其对视觉和文本信息的理解和关联的复杂能力。这种创新提供了解决复合图像检索挑战的增强灵活性。一些方法通过微调CLIP来解决图像检索任务,从而提高了性能。基于融合的方法。对比性语言-图像预训练(CLIP)在大规模图像和文本对数据集上预训练,展示了在开放领域图像-文本检索任务中的卓越能力。通过使用从网络上抓取的4亿图像-文本对,CLIP学习了图像和它们的文本描述之间的关联。它使用两个独立的编码器来实现卓越的检索结果。一些方法利用基于预训练CLIP的开放领域语义联合嵌入空间。

CLIP4CIR稍微修改了Combiner网络的架构。TG-CIR是一个目标引导的复合图像检索网络,包括用于图像-文本嵌入的CLIP模块和由目标-查询关系引导的多模态查询组合模块。PL4CIR引入了一个基于CLIP的多阶段渐进学习框架和自监督查询自适应复合模块。CompoDiff结合了CLIP和扩散,通过在冻结的CLIP潜在特征空间中使用无分类器引导(CFG)的扩散过程,并采用变换器架构作为去噪器。在[24]中,提出了一种排名感知的不确定性方法,用于图像-文本复合检索,它结合了样本内不确定性、样本间不确定性和分布正则化来对齐目标和源的特征分布。

PALAVRA采用了一种基于文本反转的两阶段方法。它从预训练的映射函数开始,然后是对伪词令牌的优化过程,该令牌将对象集编码到CLIP的文本嵌入空间中。基于[10]的架构,在BLIP4CIR中,提出了一个候选重排模型,具有双编码器架构和双向训练方法。在SPRC中,利用预训练的VLM,例如BLIP2,为相对标题生成句子级提示,用于文本到图像检索模块。CASE引入了一种新的基线,它利用预训练的BLIP组件和早期融合,称为CrossAttention驱动的Shift Encoder(CASE)。它包括两个变换器组件:基于BERT的移位编码器和ViT编码器。基于融合的方法。与成对图像-文本数据集(例如CC3M和LAION)不同,标准ITCR任务通常需要由参考图像、修改文本和目标图像组成的三元组。尽管以前的复合图像检索方法已经展示了令人鼓舞的结果,但它们对昂贵的手动注释数据集的依赖限制了它们的可扩展性和在训练数据集不同的领域的适用性。

为了克服这一点,基于文本反转的零样本方法自2023年以来引起了广泛关注。零样本学习在复合图像检索中代表了一种尖端方法,其中模型旨在在没有明确示例的情况下泛化到新任务。这些模型利用大量未标记的数据和在多样化任务上预训练期间捕获的固有知识。在零样本场景中,通常通过将文本和图像特征嵌入到共享的语义空间中来实现对齐,而不是依赖直接特征融合,而是依赖模态之间的语义一致性。具体来说,许多研究表明了对改进图像检索技术的兴趣,以提高其效率和领域适应性,而不需要依赖大量的注释资源。零样本模型在注释数据稀缺或任务要求模型理解和对齐训练数据中未出现的新概念的场景中特别有优势。它们不需要训练数据,而是基于预训练的VLMs(例如CLIP)。

然而,预训练任务和图像-文本复合检索之间仍然存在差距。PLI使用一种新颖的掩模调整自监督预训练方法来减少这种差距。通过随机掩模原始参考图像并使用文本输入重建原始未掩模图像的语义,预训练过程可以最小化查询和目标之间的相似性。在[165]中,零样本方法在没有大规模三元组监督的情况下运行,并且可以应用于开放领域。在[165]中,Pic2Word模型,它将图像映射到词令牌,在大规模图像-标题对和未标记图像上训练。需要更少数据的是SEARLE,它使用GPT驱动的正则化来生成伪词令牌。遵循视觉-语言范式,CIReVL使用语言作为推理视觉内容的抽象层。PALAVRE是一个基于文本反转的两阶段方法,具有预训练的映射函数和随后对伪词令牌的优化。与Pic2Word相比,SEARLE使用了一个更小的数据集和更复杂的损失函数组合。这两种基于投影的ZS-CIR方法将图像的全部信息转换为相同的伪词,这限制了自适应选择信息的灵活性。

为了改进这一点,contexti2w是一个上下文依赖的映射网络,它可以以层次化模式自适应地将描述相关的图像信息转换为伪词。[180]考虑了操作描述和可学习的查询作为视觉信息过滤的多级约束。在Enahancing中提出了一个交互式图像检索系统,它基于InstructeBLIP,这是一个预训练的基于VLM的图像标题生成器,使用vicuna-7b生成标题,使用ViT-g/14模型提取图像特征。本质上,零样本检索涉及文本反转,其中参考图像被输入到图像编码器中,然后被翻译成文本。然后,这个文本与提供的文本输入结合起来,便于检索目标图像。利用这个文本反转过程,复合图像检索任务被退化为标准文本到图像检索。

3.2.4 混合方法

为了利用各种方法的优势,一些研究提出了整合多种方法(例如,CNN和CLIP)。语言引导的局部渗透(LGLI)系统旨在改善文本和图像特征的整合。它包括一个语言提示视觉定位(LPVL)模块,该模块生成掩模以准确识别与修改文本相关的语义区域,然后使用文本渗透与局部感知(TILA)模块微调参考图像,从而产生无缝融合图像和文本的输出。动态加权组合器(DWC)进一步解决了挑战,并提供了三个关键优势。首先,它具有可编辑模态去等化器(EMD),用于平衡不同模态的不同贡献,并结合了两个模态特征编辑器和自适应加权组合器。其次,为了最小化标记噪声和数据偏差,它引入了一个动态软相似性标签生成器(SSG),以增强噪声监督。最后,它提出了一个基于CLIP的相互增强模块,以弥合模态之间的差距。

3.2.5 总结

总之,图像-文本复合检索方法通常使用各种架构,包括传统的基于CNN的、基于变换器的、基于大型模型的和混合方法。该领域正在迅速发展,提出了几个有希望的未来方向。

  1. 提高模型在弥合模态差距上的能力:未来的工作可以专注于通过开发更有效的技术来弥合视觉和文本特征之间的差距,确保模型能够无缝地解释和整合来自两种模态的信息。

  2. 处理开放领域场景:为了使图像-文本复合检索系统更加多功能,关键是使它们能够在开放领域数据上操作。这需要设计能够在各种主题、风格和上下文中泛化良好的模型。领域适应、迁移学习和零样本学习等技术在实现这一目标中可以发挥重要作用。

  3. 在较少数据或弱监督下进行检索:对大量注释数据的依赖是一个重要的瓶颈。未来的方法是可以探索通过半监督、弱监督和无监督学习策略来减少数据依赖。利用合成数据生成、自监督学习和利用外部知识库也可以帮助模型在较少的标记示例中有效学习。

3.3 其他多模态复合检索

大多数多模态复合检索方法专注于视觉和语言模态的组合。如表3所示,仍有一些研究探索了各种模态,如草图、音频、运动等。

3.3.1 组合其他模态

组合模态的探索通常包括图像检索和文档检索。T2I-Adapter将文本到图像(T2I)模型中的内部知识与外部控制信号(如草图、关键姿势和颜色图)相结合。这种整合有助于在扩散生成过程中将文本与其他模态结合,展示了显著的组合性和泛化性。类似地,MMFR将音频特征表示与文本信息结合起来进行图像检索。它首先使用在Audioset上预训练的VGGISH将原始音频输入转换为文本。然后,特征融合模块将转换后的音频表示与文本结合起来,增强了基于发音的音频特征的语义区分,并弥合了异构差距。

3.3.2 三模态组合

一些方法整合了三种不同模态的信息。例如,SIMC展示了结合视觉、音频、视频和文本模态的数据显著提高了语义标记性能。这是通过首先基于各个模态对概念进行分类,然后进行整合来实现的。LAVIMO是一个统一的语言-视频-运动对齐框架。它使用三个编码器,每个编码器都使用预训练的模型来提取运动、文本和视频的特征。然后,这些模态通过自定义的注意力机制对齐到一个联合嵌入空间。TriCoLo结合了文本、多视图图像和3D体素的信息来学习共享嵌入,利用对比学习进行有效的文本到形状检索。TWPW是一个图像检索框架,它使用文本和鼠标轨迹作为查询。它通过利用Localized Narratives数据集中的图像-文本匹配数据构建了一个基础图像检索模型,随后结合了从鼠标轨迹段派生的边界框。

3.3.3 总结

在多模态复合检索的研究中,已经取得了超越传统视觉和语言形式的显著进展。研究已经扩展到包括各种类型,如草图、音频和运动等,展示了创造性的方法来合并和对齐这些不同的数据形式。通过整合检索技术,对于开发一个能够实现增强粒度、组合性和泛化性的通用多模态系统持乐观态度。未来的研究可以专注于开发更有效的整合更广泛模态的方法。这包括探索现有模态的新组合,并纳入新兴类型,如传感器数据或触觉反馈。

4 基准和实验

4.1 数据集

表4组织了多模态复合检索常用的基准,包含三个主要任务:图像-文本复合编辑、图像-文本复合检索和其他多模态复合检索。为了促进研究,提供了它们的详细信息和下载链接。

4.2 实验结果

为了深入了解结果,我们提供了大量图像-文本复合检索方法在各种数据集上的性能比较,包括Fashion-IQ、Fashion200k、MIT-States、CSS、Shoes和CIRR。关于Fashion-IQ基线,我们报告了使用VAL分割和原始分割的性能。与原始分割相比,VAL通过合并参考和目标图像构建了较小的候选集,这减少了测试图像的数量,并略微提高了所有模型的性能。为了公平比较,我们在Fashion-IQ数据集上呈现了VAL和原始分割的结果。评估指标在各自的表标题中概述。结果表明,基于变换器和基于VLP的方法优于传统的基于CNN的方法。这在很大程度上得益于自注意力机制和更大数据集的引入。这也启发了我们未来的研究方向,以推进这一领域。

5 讨论和未来方向

上述部分深入探讨了多模态复合检索的研究。尽管取得了显著进展,但仍存在几个挑战和未解决的问题。在这一部分中,我们总结了关键挑战,并提出了潜在的未来研究方向。弥合模态差距。一个基本挑战在于有效地整合不同的模态。现有的技术,如注意力机制、基于图的方法和其他通用方法,已经被用来改进多模态信息的整合,使其更加细腻和全面。然而,实现多种模态之间的统一理解仍然是一个持续的挑战。可以探索更先进的对齐技术,以无缝整合不同的模态。鲁棒性和泛化性。在现实世界应用中的可信度和可靠性至关重要。深度神经网络(DNNs)众所周知,容易受到对抗性攻击的影响,但多模态复合检索系统的对抗性鲁棒性却鲜有关注。最近在提高对抗性鲁棒性和泛化性方面的进展主要集中在通过对抗性和各向同性梯度增强来提高泛化能力。因此,未来研究应该更多地关注多模态模型在不同数据集和场景下的对抗性鲁棒性和泛化性。可扩展性和灵活性。随着数据集的规模和复杂性的增长,检索系统的可扩展性变得越来越重要。利用大规模预训练模型,特别是大型语言模型(LLMs)的文本处理能力,为增强跨模态信息的生成和检索提供了一个有希望的机会。通用多模态复合检索。现有方法通常关注不同模态的各种组合,如图像和文本或其他三种模态的组合。然而,探索能够整合更广泛模态的通用方法具有重要的价值。探索一个能够跨更多模态的通用检索系统,包括但不限于图像、文本、音频、视频,是一个有前景的方向。可解释性。大多数当前模型基于深度学习,其操作像一个神秘的黑匣子。增强可解释性对于理解决策过程和提高用户对多模态复合检索系统的信任至关重要。探索模型如何做出决策仍然是一个长期的工作。

6 结论

本综述探讨了不断发展的多模态复合检索领域,该领域结合了文本、图像、音频等多种模态,以提高检索准确性和用户交互。我们回顾了200多种先进的方法,将它们组织成三个主要类别:图像-文本复合编辑、图像-文本复合检索和其他多模态复合检索。这个分类明确了当前的研究格局,并突出了现有方法的优势和劣势。此外,我们确定了关键挑战,并提出了未来研究方向,以促进这一领域的创新。我们的综述为研究人员和实践者提供了宝贵的资源,提供了对多模态复合检索当前状态及其进一步发展的见解。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值