Dynamic Multimodal Instance Segmentation【翻译】

【摘要】

我们解决了在给定描述对象的自然语言表达式的情况下对对象进行分段的问题。目前的技术通过 (i) 直接或递归合并通道维度中的语言和视觉信息, 然后执行卷积来处理这一任务; 或者 (ii) 将表达式映射到一个空间, 在这个空间中, 它可以被看作是一个过滤器, 而这个空间的筛选器响应与图像中给定空间坐标处的对象的存在直接相关, 因此可以应用卷积来查找对象。为了充分利用语言的递归性质, 我们提出了一种将这两个见解结合起来的新方法。此外, 在上采样过程中, 我们还利用了在下采样图像时产生的中间信息, 从而获得了详细的分割。我们将我们的方法与四个标准数据集中的最先进方法进行比较, 在这些方法中, 它在此任务的八个拆分中, 它超过了以前的所有方法。

【介绍】

考虑根据自然语言描述从图像中检索特定对象实例的任务, 如图1所示。与传统的实例分割不同的是, 在传统的实例分割中, 目标是为一组预定义的语义类 [1, 2] 标记图像中属于实例的所有像素, 分割由自然语言表达式描述的实例是人类正在进行的任务。能够在不特别关注一组有限的类别的情况下执行: 我们只需将引用的表达式 (如 "右边的人") 与我们所看到的内容联系起来, 如图1所示。学习这样的联想是本文的主要目的。

在此任务中, 要分配的主要标签与查询和背景相关。因此, 可能的分段掩码集几乎没有什么约束, 因为掩码可以是人们在图像中观察到的任何东西, 以自然语言允许对象被引用的所有方式。然后, 解决此问题的算法必须理解查询, 并将其与它在图像中看到和识别的内容相关联, 从而最终输出实例分段映射。因此, 在试图天真地使用卷积神经网络 (Cnn) 来完成此任务时并不存在, 因为此类网络不会像处理自然语言时所要求的那样, 按自然方式对顺序信息进行建模。考虑到此任务的基石是正确组合从多个不同域检索到的信息, 我们希望传统体系结构 (如 Cnn 和经常神经网络 (Rnn)) 成为有用的模块, 但我们仍需要设计一个整体架构, 充分利用其互补的性质。

在本文中, 我们引入了一个模块化神经网络体系结构, 将任务划分为几个子任务, 每个子任务都以特定的方式处理不同类型的信息。我们的方法类似于 [3, 4, 5], 因为我们通过使用通常用于这些类型的数据 (即 Cnn 和 Rnn) 的网络, 以独立的方式提取视觉和自然语言信息, 然后专注于通过以下方式处理此多域信息:另一个神经网络的手段, 产生了一个端到端可培训的架构。但是, 我们的方法还介绍了简单递归单元 (Sru) 在引用表达式的基础上进行高效分割的方法、联合处理语言和视觉信息的综合模块以及输出输出输出非常详细的分割地图。

我们的网络, 我们称之为动态多式联运网络 (DMN), 由几个模块组成, 如图2所示: (i) 视觉模块 (VM), 产生图像的适当表示, (ii) 语言模块 (LM) 输出适当的表示查询的含义, 最多一个给定的单词, (iii) 一个综合模块 (SM), 它合并 VM 和 LM 在每个时间步长提供的信息, 并为整个表达式生成一个输出, 最后, (iv) 一个更新模块 (UM), 该模块通过使用虚拟机生成的要素映射, 以增量采样 sm 的输出。我们的方法是一个完全可微的、可端到端可训练的神经网络, 用于基于自然语言查询的分段。我们的主要贡献如下:

使用简单的递经常单位 (Sru) [6] 作为语言和多模式处理器而不是标准 Lstm [7]。我们的经验表明, 它们是高效的, 同时为手头的任务提供了高性能。

一个综合模块, 它接收视觉和语言信息, 并通过在视觉空间中为引用表达生成 "分数" 来合并它们。

然后, 综合模块采用这种表示以及附加功能, 并利用这两种类型的信息的空间和顺序特性生成低分辨率分割映射。

一种高分辨率上采样模块, 在上采样过程中利用视觉特征, 以恢复精细的比例细节。

通过对所有标准数据集的实验验证了我们的方法, 并证明了 DMN 在基于引用表达式的实例分割的各种分割中的性能优于以往的所有方法, 并得到了最先进的结果。此外, 为了确保重现性, 我们提供了我们的方法和培训例程的全面实施, 以 PyTorch 1 [8] 编写。

我们的动态多式联运网络 (DMN) 概述, 涉及四种不同的模块: 可视模块 (VM)、语言模块 (LM)、合成模块 (SM) 和上采样模块 (UM)。
 

【相关工作】

计算机视觉 (CV) 和自然语言理解 (NLU) 的交集是一个活跃的研究领域, 包括多个任务, 如基于自然语言表达的对象检测 [9, 10]、图像字幕和视觉问题回答 (VQA) [15, 16, 17, 18, 19]。由于视觉和语言数据具有使它们具有根本不同的属性, 即前者具有空间意义, 没有顺序, 而后者不考虑空间, 而是具有顺序性质, 以最佳方式处理这两种类型的信息仍然是一个悬而未决的问题。因此, 这一子领域的每一项工作都提出了处理每一项任务的特定方式。

本文所研究的任务在本质上最接近于基于自然语言表达式的目标检测, 反映了语义分割是如何产生于目标检测 [20] 的。事实上, 在 [3] 中, NLU 的目标检测演变为使用引用表达式的实例分割。我们回顾了基于自然语言表达式的分割任务的最新情况 [3, 4] [5], 突出了多模态信息融合的主要贡献, 然后将它们与我们的方法进行了比较。

自然语言表达式的分割[3]。这项工作通过单独的神经网络处理视觉和自然语言信息:当LSTM扫描查询时,CNN从图像中提取视觉特征。 CNN下采样中的跨步卷积和合并操作将特征映射到低分辨率输出,同时为最终层中的神经元产生大的感受野。另外,为了明确地建模空间信息,在CNN获得的特征图中的每个空间位置处连接相对坐标。通过将LSTM的输出连接到每个空间位置处的视觉特征映射来完成视觉和自然语言信息的合并。具有ReLU [21]非线性的卷积层用于最终分类。损失定义为每像素权重逻辑回归损失的平均值。训练有两个阶段:低分辨率阶段,其中地面实况掩模被下采样以具有与输出相同的尺寸,以及高分辨率阶段,其训练去卷积层以对低分辨率输出进行上采样以产生最终分割面具[3]。这种开创性的方法并没有充分利用语言的顺序性,因为它没有利用学习的单词嵌入,它通过连接合并视觉和语言信息,并且它使用去卷积层进行上采样,这已被证明可以引入棋盘格。在图像[22]。

循环多模态交互[4]。本文认为,仅基于句子的最终记忆表示来分割图像并不能充分利用语言的顺序性。因此,本文提出在管道中多次执行分段。该方法通过生成涉及视觉,空间和语言特征的表示在每个时间步骤产生图像特征。通过在视觉表示的每个空间位置处连接处理查询的LSTM的隐藏状态来获得这种多模态表示。通过将多模态LSTM(mLSTM)应用于关节表示然后执行常规卷积以组合由mLSTM产生的通道来获得分割掩模。 mLSTM被定义为卷积LSTM,其在空间位置和时间步长上共享权重,并且被实现为合并所有这些类型的信息的1×1卷积。在测试时对网络的输出执行双线性上采样,以产生具有与地面实况掩模相同尺寸的掩模。该方法减少了卷积层的步幅,并在CNN的最后层中使用迂回卷积来补偿下采样。这种修改将上采样过程简化为双线性插值,但可以减少CNN的表示能力,同时也增加了
必须由mLSTM执行的计算。

按自然语言规范进行跟踪[5]。在本文中,主要任务是视频序列中的对象跟踪。跟踪中的典型用户交互包括在第一帧中提供感兴趣对象的边界框。然而,这种类型的交互具有的问题是,在视频的持续时间内,对象的外观和位置可能会改变,使得初始边界框在某些情况下无用。主要思想是提供这种方法的替代方案,注意:(i)被跟踪对象的语义含义与视频的持续时间和外观不同,并且(ii)这种语义可能是通过语言表达更好地定义。这种方法与[4]和[3]有很大的不同:视觉和语言信息本身从不合并,而是将语言信息映射到一个可以被解释为具有视觉意义的空间。因此,视觉输入由修改的VGG [23]处理以产生特征图。 LSTM扫描语言输入,并且单层感知器应用于LSTM的最后隐藏状态以生成向量,该向量可被解释为要在要素图上执行的2D卷积的滤波器。基于表达式生成的动态卷积视觉滤波器被计算以产生对被引用到表达式的元素的强响应,以及对未被引用的元素的弱响应。该响应被解释为引用表达式的“得分”,从而可以产生分段。该方法提出了一种新的范例,用于组合来自视觉和语言域的信息,但假设最后隐藏状态的非线性组合足以建模响应查询的过滤器。

我们的方法。 [3]的方法通过串联语言信息,随后的用于分割的1×1卷积和用于执行上采样的解卷积层来合并多域信息。 [4]中的方法遵循与[3]相同的逻辑,但引入了递归到方法中,进一步利用语言信息; 然而,上采样模块是一种插值,产生相当粗糙的结果,作者应用后处理DenseCRF,使得该体系结构不能端到端地训练。 最后,[5]有一种不同的方法,其中语言信息永远不会与特征映射合并,而是进行转换,以便它可以检测图像中引用表达式具有强响应的位置; 尽管如此,与[3]一样,它并没有以顺序的方式充分利用语言信息。 而且,所有这些方法都不能利用在上采样过程中在下采样过程中获得的信息。

我们的方法利用了先前的见解,并且包括模块化网络,其利用基于多域信息的组合的分割的可能性,以及产生响应于通过处理语言信息而被引用的对象的过滤器的可行性。 遵循[24,25,26]的精神,我们在下采样过程和上采样模块之间使用跳过连接来输出精确定义的分段。 我们采用[3]的连接策略,但包括更丰富的视觉和语言功能。 此外,我们使用动态滤波器计算,如[5],但是以顺序方式。 最后,我们介绍了在该领域中使用更有效的LSTM替代方案,即SRU。 我们凭经验证明SRU可用于为此任务建模语言和多模态信息,并且它们可以比LSTM快3倍,从而使我们能够训练更具表现力的模型。

Dynamic Multimodal Network

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值