motivation:
现有的方法,存在以下不足
- 模态交互不足,尤其是在低层特征上。模态融合模块总是应用于从每个模态独立学习的高级表示,这些模型可能会出现低层细节信息丢失的问题。RIS是像素级的任务,只融合深度单一模态编码器的高层特性,会失去了低层的交互。因此,需要在早期和后期融合不同模态的信息,以促进该任务的跨模态表征。
- 未对齐的预训练任务。单模态编码器通常在不同于目标任务的单模态任务上进行预训练。预训练任务保证了网络在特定模态下的特征提取能力,但在RIS的跨模态表征学习中不可避免地会带来不同模态的差异性。
- 不完全利用实例级特征。视觉嵌入总是在每个位置平等对待,没有在实例中突出显示。应该强调实例级特性,因为表达式中的引用通常容易描述实例。
idea:
提出了一种用于图像、语言和掩码联合学习的统一三模态mask - image - language框架MaIL。
- 首先,MaIL将RIS任务建模为一个深度模态交互问题,使用更简洁和有效的编码器-解码器pipeline。采用统一的transformer结构作为编码器,直接融合各模态输入的特征。该pipline可以直接解决前两个不足,因为编码器中执行了深度模态交互,并且通过丢弃深度单模态编码器,不再需要单模态的预训练。模型采用多模态预训练权重,与单模态任务的预训练相比,为该任务提供更好的对齐表示。
- 通过显式地将实例级对象mask视为一种模态,直观地,显式地引入预先分割的掩码信息,可以帮助图像和语言通过模态交互更加关注实例级特征,增强图像特征,进行更精细的预测。
- 在解码器中,自适应地处理所有候选mask特征,以选择最相关和信息量最大的一个,并将其作为一种视觉补偿图像特征,以获得最终的预测。
contribution:
- 提出了 MaIL,一个新的统一 Mask Image-Language 三模态框架,所提出的深度模态交互结构极大地简化了整个流程,并充分加强了多模态特征的交互。
- 第一个将mask作为RIS的附加模态, 与自适应掩码选择策略一起,充分利用了mask信息。