【arxiv2022】MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation

MaIL是一个创新的三模态框架,针对图像、语言和掩码的联合学习。它解决了现有方法在模态交互和预训练任务对齐上的不足,通过统一的transformer结构实现深度模态交互,并引入实例级掩码信息以增强特征表示。此外,MaIL的自适应掩码选择策略有效利用了掩码信息,提高了预测的准确性。
摘要由CSDN通过智能技术生成

motivation:

现有的方法,存在以下不足

  • 模态交互不足,尤其是在低层特征上。模态融合模块总是应用于从每个模态独立学习的高级表示,这些模型可能会出现低层细节信息丢失的问题。RIS是像素级的任务,只融合深度单一模态编码器的高层特性,会失去了低层的交互。因此,需要在早期和后期融合不同模态的信息,以促进该任务的跨模态表征。
  • 未对齐的预训练任务。单模态编码器通常在不同于目标任务的单模态任务上进行预训练。预训练任务保证了网络在特定模态下的特征提取能力,但在RIS的跨模态表征学习中不可避免地会带来不同模态的差异性。
  • 不完全利用实例级特征。视觉嵌入总是在每个位置平等对待,没有在实例中突出显示。应该强调实例级特性,因为表达式中的引用通常容易描述实例。

idea:

提出了一种用于图像、语言和掩码联合学习的统一三模态mask - image - language框架MaIL。

  • 首先,MaIL将RIS任务建模为一个深度模态交互问题,使用更简洁和有效的编码器-解码器pipeline。采用统一的transformer结构作为编码器,直接融合各模态输入的特征。该pipline可以直接解决前两个不足,因为编码器中执行了深度模态交互,并且通过丢弃深度单模态编码器,不再需要单模态的预训练。模型采用多模态预训练权重,与单模态任务的预训练相比,为该任务提供更好的对齐表示。
  • 通过显式地将实例级对象mask视为一种模态,直观地,显式地引入预先分割的掩码信息,可以帮助图像和语言通过模态交互更加关注实例级特征,增强图像特征,进行更精细的预测。
  • 在解码器中,自适应地处理所有候选mask特征,以选择最相关和信息量最大的一个,并将其作为一种视觉补偿图像特征,以获得最终的预测。

contribution:

  • 提出了 MaIL,一个新的统一 Mask Image-Language 三模态框架,所提出的深度模态交互结构极大地简化了整个流程,并充分加强了多模态特征的交互。
  • 第一个将mask作为RIS的附加模态, 与自适应掩码选择策略一起,充分利用了mask信息。
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值