【arxiv2022】MaIL: A Uniﬁed Mask-Image-Language Trimodal Network for Referring Image Segmentation_coupling word-pixel with sentence-mask alignments -CSDN博客

本文链接：https://blog.csdn.net/lynn_dai/article/details/125409982

MaIL是一个创新的三模态框架，针对图像、语言和掩码的联合学习。它解决了现有方法在模态交互和预训练任务对齐上的不足，通过统一的transformer结构实现深度模态交互，并引入实例级掩码信息以增强特征表示。此外，MaIL的自适应掩码选择策略有效利用了掩码信息，提高了预测的准确性。

摘要由CSDN通过智能技术生成

现有的方法，存在以下不足

模态交互不足，尤其是在低层特征上。模态融合模块总是应用于从每个模态独立学习的高级表示，这些模型可能会出现低层细节信息丢失的问题。RIS是像素级的任务，只融合深度单一模态编码器的高层特性，会失去了低层的交互。因此，需要在早期和后期融合不同模态的信息，以促进该任务的跨模态表征。
未对齐的预训练任务。单模态编码器通常在不同于目标任务的单模态任务上进行预训练。预训练任务保证了网络在特定模态下的特征提取能力，但在RIS的跨模态表征学习中不可避免地会带来不同模态的差异性。
不完全利用实例级特征。视觉嵌入总是在每个位置平等对待，没有在实例中突出显示。应该强调实例级特性，因为表达式中的引用通常容易描述实例。

提出了一种用于图像、语言和掩码联合学习的统一三模态mask - image - language框架MaIL。

首先，MaIL将RIS任务建模为一个深度模态交互问题，使用更简洁和有效的编码器-解码器pipeline。采用统一的transformer结构作为编码器，直接融合各模态输入的特征。该pipline可以直接解决前两个不足，因为编码器中执行了深度模态交互，并且通过丢弃深度单模态编码器，不再需要单模态的预训练。模型采用多模态预训练权重，与单模态任务的预训练相比，为该任务提供更好的对齐表示。
通过显式地将实例级对象mask视为一种模态，直观地，显式地引入预先分割的掩码信息，可以帮助图像和语言通过模态交互更加关注实例级特征，增强图像特征，进行更精细的预测。
在解码器中，自适应地处理所有候选mask特征，以选择最相关和信息量最大的一个，并将其作为一种视觉补偿图像特征，以获得最终的预测。