Thirty-Eighth AAAI Conference on Artificial Intelligence, AAAI 2024中multi-modal论文汇总(前20)

系列文章目录


文章目录


一、《A Multi-Modal Contrastive Diffusion Model for Therapeutic Peptide Generation.》治疗肽生成的多模态对比扩散模型。

治疗肽是一类独特的药物制剂,对人类疾病的治疗至关重要。近年来,深度生成模型在生成治疗肽方面显示出了巨大的潜力,但它们仅利用序列或结构信息,这阻碍了生成的性能。在这项研究中,我们提出了一个多模态对比扩散模型(MMCD),在扩散框架中融合序列和结构模式,共同产生新的肽序列和结构。具体而言,MMCD分别构建了序列-模态和结构-模态扩散模型,并设计了在每个扩散时间步具有间对比和内对比的多模态对比学习策略,旨在捕捉两模态之间的一致性,提高模型性能。相互对比通过最大化其嵌入的一致性来对齐肽的序列和结构,而内部对比通过最大化其序列/结构嵌入的不一致来区分治疗和非治疗肽。广泛的实验表明,MMCD在多种指标(包括抗菌/抗癌评分、多样性和肽对接)上比其他最先进的深度生成方法在生成治疗性肽方面表现更好。
在这里插入图片描述

图1:MMCD的概述。MMCD由肽序列-结构共生成的扩散模型和多模态对比学习。扩散模型包括一个加入噪声的前向过程(q(·|·))和一个反向过程过程(p(·|·))在每个时间步长t进行去噪。反向过程利用变压器编码器(或EGNN)来提取来自序列S(或结构C)的嵌入,以及基于序列(或结构)的MLP将嵌入映射到边缘分布(或高斯)噪声。多模态CL包括Inter-CL和Intra-CL,其目的是对齐序列和构建嵌入,并区分治疗性和非治疗性肽嵌入。

二、《Local-Global Multi-Modal Distillation for Weakly-Supervised Temporal Video Grounding.》弱监督时域视频接地的局部-全局多模态精馏。

本文首次利用多模态视频进行弱监督时域视频接地。由于标记视频时刻是劳动密集型和主观性的,近年来,弱监督的方法越来越受到关注。然而,由于监督不足,这些方法本身可能会损害性能。因此,为了应对这一挑战,我们首次注意利用从多模态视频中提取的互补信息(例如,RGB帧,光流),在弱监督环境中自然引入更丰富的监督。我们的动机是通过整合视频的不同模式,从协同监督中学习模型,从而获得更好的泛化能力。然而,处理多个模态†也将不可避免地引入额外的计算开销,并且如果无法访问特定模态,则可能变得不适用。为了解决这个问题,我们采用了一种新颖的方法:构建一个多模态蒸馏算法,利用多模态知识作为模型训练的监督,同时在推理过程中仍然能够只使用单一模态输入。因此,我们可以利用多模态的补充特性带来的好处,而不会影响其在实际场景中的适用性。具体来说,我们首先提出了一个跨模态相互学习框架,并训练了一个复杂的教师模型来从多模态视频中进行协作学习。然后,我们从教师模型中识别出两类知识,即时间边界和语义激活图。我们设计了一个局部-全局蒸馏算法,将这些知识转移到局部和全局水平的单模态输入的学生模型中。在大规模数据集上的大量实验表明,我们的方法在有/没有多模态输入的情况下实现了最先进的性能。
在这里插入图片描述

局部-全局多模态蒸馏(MMDist)综述它包括1)使用局部全局对比学习的单模态基线,2)在局部和全局级别使用多模态蒸馏算法的单模态学生模型,3)跨模态互学的多模态教师模式。深绿色代表的提案候选人那些被预测为积极的。

三、《Learning Multi-Modal Cross-Scale Deformable Transformer Network for Unregistered Hyperspectral Image Super-resolution.》非配准高光谱图像超分辨率的多模态跨尺度变形变压器网络学习。

高光谱图像超分辨率(HSI- sr)是一种提高高光谱图像空间分辨率的技术。现有的基于融合的SR方法表现出了较好的性能,但仍存在以下问题:1)现有方法假设提供空间信息的辅助图像与HSI严格配准,但由于拍摄平台、拍摄视点和大气湍流的影响,图像难以精细配准;2)大多数方法基于卷积神经网络(cnn),对局部特征有效,但不能利用全局特征。为此,我们提出了一个多模态跨尺度变形变压器网络(M2DTN)来实现未注册的HSI-SR。具体而言,我们从实际退化场景出发,建立了基于频谱保持的空间引导配准- sr统一模型(SSRU)。根据SSRU,我们提出了多模态配准变形模块(MMRD),通过形变场在不同模态之间对齐特征。为了有效利用不同模态之间的独特信息,我们设计了多尺度特征转换器(MSFT)来强调不同尺度下的空间光谱特征。此外,我们提出了跨尺度特征聚合模块(CSFA),通过聚合不同尺度的特征信息来精确重构恒生指数。实验表明,M2DTN优于最先进的HSI-SR方法。代码可从https://github.com/Jiahuiqu/M2DTN获得。
在这里插入图片描述

M 2 D T N M^2DTN M2DTN概述。图中, i ∈ [ 0 , N ] i∈[0,N] i[0,N]表示刻度大小,对应的刻度 0 0 0号是最大的刻度。

四、《LAMM: Label Alignment for Multi-Modal Prompt Learning.》

详细内容

五、《Prompting Multi-Modal Image Segmentation with Semantic Grouping.》基于语义分组的多模态图像分割。

多模态图像分割是计算机视觉的核心问题之一。主要的挑战在于集成模式之间的公共信息,同时为每个模式保留特定的模式。现有的方法通常对基于rgb的预训练参数执行完全微调,以继承基础模型的强大表示。这种模式虽然有效,但由于可移植性弱和下游数据稀缺,并不是最优的。受近期语言模型提示学习成功的启发,我们提出了分组提示调整框架(GoPT),该框架引入显式语义分组来学习与模态相关的提示,使冻结的预训练基础模型适应各种下游多模态分割任务。具体来说,设计了一个类感知的单模态提示器,通过分组特定于模态的类标记来平衡模态内和模态间的语义传播,从而提高空间信息的适应性。此外,还引入了一个对齐诱导的跨模态提示符,用于聚合类感知表示并在不同模态之间共享提示参数,以帮助建模公共统计数据。大量的实验证明了我们的GoPT的优越性,仅通过训练< 1%的模型参数就可以在各种下游多模态图像分割任务中实现SOTA性能。
在这里插入图片描述

GoPT概述。RGB和辅助模态首先通过补丁嵌入生成相应的令牌;然后送入l层堆叠视觉转换器进行特征编码。对提示符进行分组 { p l } l = 0 L − 1 \{p^l\}^{L−1}_{l =0} {pl}l=0L1插入学习视觉提示的基础模型,其中CUP通过学习模态来改善模态内语义传播特定的类标记,而ACP聚合类感知的表示,并帮助建模模式通用统计。

六、《COMMA: Co-articulated Multi-Modal Learning. 》COMMA:联合多模式学习。

预训练的大规模视觉语言模型(如CLIP)已经在一系列下游任务中展示了出色的泛化能力。然而,它们对输入文本提示的变化很敏感,需要选择提示模板才能达到令人满意的性能。近年来,人们提出了各种方法来动态学习提示作为文本输入,以避免在微调过程中手工制作提示工程的需要。我们注意到这些方法在两个方面是次优的。首先,这些方法中视觉分支和语言分支的提示通常是分离的或单向相关的。因此,两个分支的提示不是完全相关的,可能无法提供足够的指导来对齐两个分支的表示。其次,我们观察到,与CLIP相比,大多数以前的方法通常在可见类上实现更好的性能,但在不可见类上导致性能下降。这是因为在预训练阶段学到的基本知识在微调过程中部分被遗忘了。在本文中,我们提出了协同多模态学习(COMMA)来解决上述限制。特别是,我们的方法考虑来自两个分支的提示来生成提示,以增强两个分支的表示对齐。此外,为了减轻对基本知识的遗忘,我们将学习到的提示与在后期transformer层预训练CLIP中嵌入的手工提示之间的特征差异最小化。我们通过三个代表性任务来评估我们的方法:对新类别的泛化、新的目标数据集和未见过的域转移。实验结果证明了该方法的优越性,在所有任务上都表现出良好的性能提升,效率很高。代码可从https://github.com/hulianyuyy/COMMA获得。
在这里插入图片描述

COMMA的概述。其中, L c e L_{ce} Lce表示交叉熵损失, L k d L_{kd} Lkd表示知识蒸馏两个分支之间的损失。COMMA根据前面两个分支的提示生成视觉分支的提示汇总多模态有益信息,指导其表示对齐。此外,它让学到的提示在预训练的CLIP模型中近似手工制作的提示,以保留通用知识。

七、《Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-Modal Structured Representations.》Structure-CLIP:面向场景图知识,增强多模态结构化表示。

大规模视觉语言预训练在多模态理解和生成任务中取得了显著的效果。然而,现有的方法在需要结构化表示(即对象、属性和关系的表示)的图像-文本匹配任务上通常表现不佳。这些模型无法区分“宇航员骑马”和“马骑宇航员”。这是因为他们在学习多模态表示时没有充分利用结构化知识。在本文中,我们提出了一个端到端框架Structure-CLIP,它集成了场景图知识(Scene Graph Knowledge, SGK)来增强多模态结构化表示。首先,我们使用场景图来指导语义否定样例的构建,这使得学习结构化表征变得更加重要。此外,提出了一种知识增强编码器(KEE),利用SGK作为输入进一步增强结构化表示。为了验证所提出框架的有效性,我们使用上述方法预训练我们的模型,并在下游任务上进行实验。实验结果表明,Structure-CLIP在VG-Attribution和VG-Relation数据集上达到了最先进的SOTA性能,分别比多模态SOTA模型高出12.5%和4.1%。同时,MSCOCO结果表明,Structure-CLIP在保持一般表征能力的同时,显著增强了结构化表征。我们的代码可在https://github.com/zjukg/Structure-CLIP上获得。
在这里插入图片描述

Structure-CLIP概述。(a)通过场景图进行语义负采样:从图像中提取场景图说明文字有助于构建高质量的负样本(左图)。(b)知识增强编码器:知识嵌入模块和多个transformer层用于在输入层(右部分)对结构化知识进行建模。

八、《Multi-Modality Affinity Inference for Weakly Supervised 3D Semantic Segmentation.》弱监督三维语义分割的多模态关联推理。

利用场景级标签的注释过程。然而,这些方法并没有有效地利用RGB-D扫描中丰富的几何信息(如形状和尺度)和外观信息(如颜色和纹理)。此外,目前的方法未能充分利用从特征提取网络中推断出的点亲和力,这对于从弱场景级标签中学习至关重要。此外,先前的工作忽略了点云数据长尾分布在弱监督三维语义分割中的不利影响。为此,本文提出了一种简单而有效的场景级弱监督点云分割方法,并引入了多模态点关联推理模块。本文提出的点亲和性采用多模态特征(如点云和RGB),并通过归一化分类器权值进一步细化,在不需要类别分布先验的情况下减轻长尾分布的不利影响。在ScanNet和S3DIS基准测试上进行的大量实验验证了我们提出的方法的有效性,该方法的性能比目前最先进的方法高出约4%至约6% mIoU。代码发布在https://github.com/Sunny599/AAAI24-3DWSSG-MMA
在这里插入图片描述

提出了管道的方法。采用共享参数的两流架构,其中两流分别以纯几何点云和rgb附加点云为输入。主要涉及三个模块:特征提取模块、切分模块和多模态亲和推理模块。

九、《NaMa: Neighbor-Aware Multi-Modal Adaptive Learning for Prostate Tumor Segmentation on Anisotropic MR Images.》基于邻居感知的多模态自适应学习在各向异性MR图像上的前列腺肿瘤分割。

从多模态磁共振(MR)图像中准确分割前列腺肿瘤对于前列腺癌的诊断和治疗至关重要。然而,现有分割方法的鲁棒性有限,主要是因为这些方法1)不能自适应地评估每个MR模态的主体特异性信息以准确描绘肿瘤;2)缺乏有效利用MR图像中厚切片间的层间信息来分割整个三维体积的肿瘤。在这项工作中,我们提出了一种两阶段的邻居感知多模态自适应学习网络(NaMa),用于从多模态各向异性MR图像中准确分割前列腺肿瘤。特别是,在第一阶段,我们通过开发一种新的模态-信息量自适应学习(ial)模块来选择和自适应融合基于模态间相关性的每个模态的信息表示,在每个切片中应用特定主题的多模态融合。在第二阶段,我们利用断层间特征相关性来导出体积肿瘤分割。具体来说,我们首先使用带有序列层的Unet变体在全局尺度上粗略捕获切片关系,并进一步为每个切片生成激活图。然后,我们引入了一个激活映射指导(AMG)模块来改进切片表示(通过来自相邻切片的信息),以便在相邻切片之间实现一致的肿瘤分割。此外,在网络训练过程中,我们进一步对每个MR模态采用随机掩码策略,以提高特征表示效率。在内部和公共(PICAI)多模态前列腺肿瘤数据集上的实验表明,我们提出的NaMa比最先进的方法表现得更好。
在这里插入图片描述

(a)由MIAL和AMG模块组成的拟议NaMa模型概览。采用AMG进行精炼利用相邻切片的特征提取逐片低置信度特征。(b) MIAL的详细结构,其中对各模态的有效性进行自适应评价,然后对跨模态特征进行融合。©详细的序列层结构,可以在全局尺度上粗略地捕捉层间关系。

十、《NuScenes-QA: A Multi-Modal Visual Question Answering Benchmark for Autonomous Driving Scenario.》NuScenes-QA:自动驾驶场景的多模态视觉问答基准。

我们在自动驾驶背景下引入了一种新的视觉问答(VQA)任务,旨在根据街景线索回答自然语言问题。与传统的VQA任务相比,自动驾驶场景下的VQA提出了更多的挑战。首先,原始视觉数据是多模态的,包括相机和激光雷达分别捕获的图像和点云。其次,由于数据采集是连续的、实时的,所以数据是多帧的。第三,户外场景呈现动态前景和静态背景。现有的VQA基准测试不能充分解决这些复杂性。为了弥补这一差距,我们提出了NuScenes-QA,这是自动驾驶场景中VQA的第一个基准,包含34K视觉场景和460K问答对。具体来说,我们利用现有的3D检测注释来手动生成场景图和设计问题模板。随后,基于这些模板以编程方式生成问答对。综合统计证明,我们的NuScenes-QA是一个具有多种问题格式的平衡的大规模基准。在此基础上,我们开发了一系列采用先进3D检测和VQA技术的基线。我们大量的实验突出了这项新任务带来的挑战。代码和数据集可在https://github.com/qiantianwen/NuScenes-QA上获得。
在这里插入图片描述

基线框架。首先通过特征提取主干对多视图图像和点云进行处理获取BEV特征。然后,根据检测到的3D边界框裁剪对象嵌入。最后,将这些对象特征与给定的问题一起输入到问答头中进行答案解码。

十一、《Generative-Based Fusion Mechanism for Multi-Modal Tracking》基于生成的多模态跟踪融合机制

生成模型(GMs)因其实现全面理解的卓越能力而受到越来越多的研究兴趣。然而,它们在多模态跟踪领域的潜在应用尚未得到探索。在这种背景下,我们试图揭示利用生成技术来解决多模态跟踪中的关键挑战——信息融合的潜力。在本文中,我们深入研究了两个突出的GM技术,即条件生成对抗网络(cgan)和扩散模型(dm)。不同于将每个模态的特征直接输入到融合块中的标准融合过程,我们将这些多模态特征与随机噪声结合在GM框架中,有效地将原始训练样本转化为更困难的实例。该设计擅长从特征中提取判别性线索,提高最终跟踪性能。基于此,我们在两个多模态跟踪任务、三个基线方法和四个具有挑战性的基准上进行了广泛的实验。实验结果表明,所提出的基于生成的融合机制在GTOT、LasHeR和RGBD1K上都创下了新的记录,达到了最先进的融合性能。代码将在https://github.com/Zhangyong-Tang/GMMT上提供。

十二、《Heterogeneous Test-Time Training for Multi-Modal Person Re-identification》多模态人再识别的异构测试时间训练

多模式人员再识别(ReID)旨在通过结合多种模式来缓解具有挑战性的照明条件。大多数现有的多模态ReID方法都集中于通过融合或交互来利用互补的多模态信息。然而,异构模式和未标记测试数据的领域特征之间的关系很少被探索。本文提出了一种针对多模态人身份识别的异构测试时训练(HTT)框架。我们首先提出了一个跨身份多式联运边际(CIM)损失来放大不同身份样本之间的差异。此外,我们设计了一个多模态测试时间训练(MTT)策略,通过利用异构模态之间的关系和测试数据中存在的信息来增强模型的泛化能力。具体而言,在训练阶段,我们利用CIM损失,通过迫使多式联运距离维持边际来进一步扩大锚点与负值之间的距离,从而增强最终描述符的判别能力。随后,由于测试数据包含目标域的特征,我们采用MTT策略,利用基于模态间关系设计的自监督任务,在推理前对网络进行优化。在基准多模态ReID数据集RGBNT201、Market1501-MM、RGBN300和RGBNT100上的实验结果验证了该方法的有效性。这些代码可以在https://github.com/ziwang1121/HTT上找到。
在这里插入图片描述
提出的异构测试时训练(HTT)框架概述。(a)为了约束模型在训练过程中的学习,我们采用了两个完全监督损失(CE损失和Tri损失)和两个自监督损失(3M损失和CIM损失)的组合。(b)在测试时间训练期间,仅使用自监督损失来更新模型。调优后,将使用归一化特征ftar BN进行测试。© 3M的损失增加了内部模式之间的距离。CIM损失进一步扩大了属于不同身份的模态特征的区分。

十三、Chain of Generation: Multi-Modal Gesture Synthesis via Cascaded Conditional Control.生成链:通过级联条件控制的多模态手势合成。

这项研究旨在通过使用来自人类语言的多模态信息来改善3D手势的生成。以前的研究集中在整合额外的模式来提高生成的手势的质量。然而,当推理过程中缺少某些模式时,这些方法的性能很差。为了解决这个问题,我们建议在改进手势生成之前使用语音衍生的多模态。我们介绍了一种新的方法,将先验与语音分离,并使用多模态先验作为生成手势的约束。我们的方法使用一种类似链的建模方法,顺序地生成面部混合形状、身体动作和手势。具体来说,我们将来自面部畸形和之前基于语言情感的风格化的节奏线索融入到产生手势的过程中。通过整合多模态先验,我们的方法提高了生成手势的质量,并消除了推理期间昂贵的设置准备的需要。广泛的实验和用户研究证实,我们提出的方法实现了最先进的性能。

十四、《Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation》多模态:一种用于视频对象分割的统一时间转换器。

近年来,基于语言和音频等多模态信号的视频目标分割(VOS)越来越受到业界和学术界的关注。探索模态内的语义对齐和跨帧的视觉对应是一个挑战。然而,现有的方法针对不同的模态采用单独的网络架构,忽略了与参考的帧间时间交互。本文提出了一种多模态统一时间转换器MUTR,用于参考视频对象分割。MUTR首次有了统一的框架,采用了der风格的转换器,能够分割文本或音频引用指定的视频对象。具体来说,我们引入了两种策略来充分探索视频和多模态信号之间的时间关系。首先,对于变换前的低级时间聚合,我们使多模态引用能够从连续视频帧中捕获多尺度视觉线索。这有效地赋予了文本或音频信号时间知识,并促进了模态之间的语义一致性。其次,对于变换后的高级时间交互,我们对不同的对象嵌入进行帧间特征通信,有助于更好地沿视频跟踪对象对应。在Ref-YouTube-VOS和AVSBench数据集上,分别使用文本和音频参考,MUTR实现了+4.2%和+8.7%的J&F改进,这表明了我们对统一多模态VOS的重要性。代码发布在https://github.com/OpenGVLab/MUTR。

十五、《Multi-Modal Prompting for Open-Vocabulary Video Visual Relationship Detection》开放词汇视频视觉关系检测的多模态提示

 开放词汇视频关系检测旨在通过检测视频中对象之间不可见的关系,将视频关系检测扩展到注释类别之外。最近在开放词汇感知方面取得的进展,主要是由像CLIP这样的大规模图像文本预先训练的模型推动的,在识别新的对象和语义类别方面显示出了显著的成功。然而,由于图像和视频对象关系之间的巨大差距,直接将类似clip的模型应用于视频-视觉关系检测面临着重大挑战。为了解决这一挑战,我们提出了一种多模态提示方法,通过对视觉表示和语言输入进行提示调,使CLIP很好地适应开放词汇视频-视觉关系检测。具体来说,我们通过使用时空视觉提示来捕获时空上下文来增强CLIP的图像编码器,从而使其适合于视频中的对象级关系表示。此外,我们提出了视觉引导语言提示,以利用CLIP的全面语义知识来发现未见的关系类别,从而促进识别新的视频关系。对VidVRD和VidOR这两个公共数据集的广泛实验证明了我们方法的有效性,特别是在VidVRD数据集的新关系类别中,mAP显著提高了近10%。

十六、《PM-INR: Prior-Rich Multi-Modal Implicit Large-Scale Scene Neural Representation.》PM-INR:优先富多模态隐式大尺度场景神经表征。

 隐式神经表征的最新进展有助于高保真表面重建和逼真的新视图合成。然而,随着场景规模的扩大,如街区或城市级别,现有的方法将面临挑战,因为传统的采样无法应对立方体增长的采样空间。为了消除对填充采样空间的依赖,我们探索了使用多模态优先级来帮助单个点获得更多的全球语义信息,并提出了一个用于户外无界大尺度场景的优先级多模态隐式神经表示网络PM -INR。我们方法的核心是多模态前提取和跨模态前融合模块。前者对来自不同模态输入和提取的有价值的代码本进行编码,而后者侧重于维护视图一致性和保留多模态前的独特特性。最后,将特征丰富的跨模态先验注入采样区域,使每个区域在不填充采样空间的情况下感知全局信息。广泛的实验证明了我们的户外无界大尺度新视图合成方法的有效性和鲁棒性,在PSNR、SSIM和LPIPS方面优于最先进的方法。

十七、《MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D Point Cloud Understanding.》MM-Point:多视图信息增强的多模态自监督3D点云理解。

 在感知方面,将多种感官信息整合起来,将2D视图的视觉信息映射到3D物体上,这有利于在3D环境中理解。但是对于从不同角度渲染的单个2D视图来说,只能提供有限的部分信息。多视点二维信息的丰富性和价值可以为三维物体提供优越的自监督信号。本文提出了一种基于模内和模间相似性目标驱动的自监督点云表示学习方法MM-Point。MM-Point的核心在于3D对象与多个2D视图同时进行多模态交互与传输。为了更有效地同时执行基于对比学习的二维多视图信息的一致性跨模态目标,我们进一步提出了Multi-MLP和Multi-level增强策略。通过精心设计的转换策略,我们进一步学习了二维多视图中的多层次不变性。MM-Point在各种下游任务中展示了最先进(SOTA)的性能。例如,它在合成数据集ModelNet40上达到了92.4%的峰值精度,在真实数据集ScanObjectNN上达到了87.8%的最高精度,与完全监督的方法相当。此外,我们还证明了该方法在少镜头分类、3D零件分割和3D语义分割等任务中的有效性。

十八、《A Robust Mutual-Reinforcing Framework for 3D Multi-Modal Medical Image Fusion Based on Visual-Semantic Consistency. 》基于视觉-语义一致性的三维多模态医学图像融合鲁棒框架

 本文提出了一种鲁棒的三维医学图像融合框架,在视觉融合和病灶分割之间建立了一种相互增强的机制,实现了两者的双重提升。具体来说,我们通过共享特征融合模块来探索视觉和语义之间的一致性。通过视觉融合损失和病灶分割损失的耦合优化,将视觉相关特征和语义相关特征拉入同一域,以一种相辅相成的方式有效促进准确率的提高。进一步,在特征提取和重构过程中构造两级细化约束,建立鲁棒性保证。我们的框架充分考虑了医学图像中常见的退化现象,不仅可以为医生的观察提供清晰的视觉融合结果,还可以增强病灶分割对这些负面因素的防御能力。对视觉融合和病灶分割场景的广泛评估表明,我们的方法在准确性和鲁棒性方面具有优势。此外,我们提出的框架是通用的,可以很好地兼容现有的病变分割算法,提高其性能。该代码可在https://github.com/HaoZhang1018/RMR-Fusion上公开获得。

十九、《M2Doc: A Multi-Modal Fusion Approach for Document Layout Analysis》M2Doc:一种多模态融合的文档布局分析方法

 文档布局分析是智能文档理解的关键步骤。然而,现有的许多方法主要侧重于视觉方面,而忽略了文档的文本特征。虽然文档预训练模型在预训练阶段利用多模态特征,但当涉及布局分析任务时,它们倾向于作为单模态管道运行。此外,在复杂的版图分析数据集上,现有的多模态检测方法的性能不如单模态检测方法。为了解决这些限制,我们提出了一种有效且可插入的多模态融合方法,名为M2Doc,它融合了视觉和文本特征,以更好地进行布局检测。M2Doc包含两个可插拔的多模态融合模块,早期融合和后期融合,分别在像素级和块级对视觉和文本特征进行对齐和融合。得益于M2Doc的简洁和有效性,它可以很容易地应用于各种检测器,以实现更好的布局检测,包括两级和端到端对象检测器。我们的实验结果表明,在DocLayNet (+11.3 mAP)和M6Doc (+1.9 mAP)等数据集上,配备M2Doc的检测器的性能有了显著提高。此外,通过DINO探测器与M2Doc的集成,我们在DocLayNet (89.0 mAP), M6Doc (69.9 mAP)和PubLayNet (95.5 mAP)上获得了最先进的结果。代码将在https://github.com/johnning2333/M2Doc上公开发布。
在这里插入图片描述

图3:我们提出的方法的管道。具有绿色、红色、黄色和蓝色背景的模块代表分别对文本网格表示、特征提取、早期融合和后期融合进行了研究。

二十、《SimDistill: Simulated Multi-Modal Distillation for BEV 3D Object Detection. 》sim蒸馏:用于BEV三维目标检测的模拟多模态蒸馏。

 基于多视角相机的3D目标检测因其低成本而变得流行,但仅从相机数据中准确推断3D几何形状仍然具有挑战性,并且可能导致性能下降。虽然从激光雷达数据中提取精确的3D几何知识可以帮助解决这一挑战,但不同感官模式之间的显著模式差异可能会极大地阻碍激光雷达信息的优势。为了解决这个问题,我们通过精心设计模型架构和蒸馏策略,提出了一种模拟多模态蒸馏(sim蒸馏)方法。具体来说,我们为教师和学生模型设计了多模态架构,包括基于激光雷达相机融合的教师和基于模拟融合的学生。由于“相同”的架构设计,学生可以模仿老师,仅以多视图图像作为输入来生成多模态特征,其中引入了几何补偿模块来弥补模态差距。此外,我们提出了一个综合的多模态蒸馏方案,支持在鸟瞰空间内同时进行模态内、跨模态和多模态融合蒸馏。将它们结合在一起,我们的SimDistill可以学习更好的3D对象检测特征表示,同时保持成本效益的相机部署。大量的实验验证了sim蒸馏的有效性和优越性,比基线检测器提高了4.8%的mAP和4.1%的NDS。源代码将在https://github.com/ViTAE-Transformer/SimDistill上发布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值