图像分割(十)——Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation

Referring Image Segmentation(基于文本的实例分割)任务的主要挑战在于如何有效和高效地区分指代物和与指代物相同类别的其他物体。

Abstract

近年来,参考图像分割(Referring Image Segmentation) 引起了人们的广泛关注。以往的方法都是在网络解码端实现语言和视觉的多模态融合。语言特征分别与各尺度的视觉特征相互作用,忽视了语言对多尺度视觉特征的连续引导。本文提出了一种编码器融合网络(EFN),该网络将视觉编码器转化为多模态特征学习网络,并利用语言逐步细化多模态特征。此外,EFN中还嵌入了一种协同注意机制,实现了多模态特征的并行更新,从而促进了跨模态信息在语义空间中的一致表示。最后,我们提出了一个有界增强模块(BEM),使网络更加注重精细结构。在四个基准数据集上的实验结果表明,该方法在不进行任何后处理的情况下,在不同的评价指标下都能达到最先进的性能。

本文贡献

  • 提出了一种编码器融合网络(EFN)。大部分的在网络解码端实现语言和视觉的多模态融合,本文实现了在编码端进行语言和视觉的多模态融合,并且在后文中对比实验的效果比解码端融合效果更好。
  • 提出了两种结构的语言和图像的co-attention。
    引入边界增强模块(BEM)来强调网络对轮廓表示的关注,这有助于网络逐步恢复更精细的细节。

1. Introduction

参考图像分割的目的是根据参考表达式提取图像中最相关的视觉区域(物体或东西)。 传统的语义分割和实例分割需要正确分割图像中的每个语义类别或每个对象,参考图像分割需要根据对给定语言查询的理解找到图像的一定部分。因此,它可以看作是一个像素级的前景/背景分割问题,输出结果不受预定义的语义类别或对象类的限制。该任务在基于语言的人机交互中具有广泛的潜在应用前景。

该任务的关键是实现视觉特征和语言特征之间的跨模态匹配。深度学习在短时间内迅速提高了视觉语言任务的结果。卷积神经网络(CNN)和递归神经网络(RNN)的快速发展,在理解视觉和语言的能力上取得了质上的飞跃,从而可以解决更复杂的像素级跨模态预测任务。早期的参考图像分割方法[14,26,23,33]主要依赖于深度学习模型强大的学习能力。它们直接将语言特征与每个区域的视觉特征直接连接起来,然后使用组合后的多模态特征来生成分割掩模。由于两种模式之间缺乏非常有效的交互作用,这种解决方案不能满足实际应用程序的要求。最近,一些作品[36,38,1,16,17,19]开始考虑语言和视觉注意机制,以更好地聚合这两种特征。

虽然近年来提出了一些参考图像分割方法,但仍存在许多尚未探索的问题。一方面,对于视觉和语言的跨模态融合。早期的方法通常采用解码器融合策略,将RGB图像和参考表达式分别输入CNN或RNN,分别生成自己的特征表示,然后在解码阶段融合这些特征。然而,网络输出侧的这种融合策略要么只考虑语言和最高层次视觉特征[26,23]之间的交互作用,要么将语言特征与每个层次的视觉特征独立结合起来(如图1(a)所示)[38,16,19]。他们没有研究语言对多模态融合特征的深度引导。此外,一些作品利用视觉和语言注意机制进行跨模态特征匹配。但他们更新语言和视觉特性在串行模式[36,1,16,17,19],也就是说,他们只更新一个模式的特性在一个特定的时间,这将导致更新延迟功能之间的不同模式,最终削弱多模态信息的一致性。另一方面,在cnn中,重复的步幅和池化操作可能会导致一些重要的精细结构信息的丢失,但很少有参考图像分割方法明确考虑细节恢复的问题。
图1
为了解决上述问题,我们提出了一种具有共注意嵌入的编码器融合网络(CEFNet)用于参考图像分割。我们首次采用了编码器融合策略,通过语言逐步引导多层次的跨模态信息特征。将原始的视觉特征编码器(如ResNet)转换为多模态特征编码器(如图1(b)所示)。两种模式的特征在CNN编码器中深深交织。此外,为了有效地发挥语言的指导作用,我们采用了共同注意机制,同时更新不同模式的特征。它利用相同的亲和矩阵,将不同的特征以并行模式投射到公共特征子空间中,更好地实现跨模态匹配,以弥合粗粒度引用表达与高度局部视觉分割之间的差距。我们实现了两种简单而有效的共同注意机制,如普通的共同注意和非对称的共同注意,这为参考图像分割的任务提供了一个更深刻的一瞥。最后,我们设计了一个边界增强模块(BEM),它捕获并利用边界线索作为指导,在网络解码阶段逐步恢复目标区域的细节。

2. Related Work

Referring Image Comprehension

这个任务有两个分支:定位和分割。对于参考图像定位,以往的方法主要由两个独立的阶段组成。他们首先使用目标检测器提取候选区域,然后根据参考表达式对这些区域进行排序。开创性的方法[15,32,31]使用CNN-LSTM结构来选择表达式后验概率最大的目标,其他工作是[27,41]优化目标对象和表达式的联合概率。最近,一些方法[37,35,24]使用了一个单阶段的框架,它们不是生成过多的候选框,而是以端到的方式直接预测目标区域的坐标。上述方法都在解码器中实现了多模态融合。

对于参考图像分割,早期的方法[14,26,23,33]直接连接语言和视觉特征,然后完全依赖于一个完全卷积的网络来推断像素级掩码。这些方法并没有明确地表示模态内的关系和模态间的关系。[36,38,1,16,17,19]最近的一些研究考虑了语言和视觉信息的自注意力和交叉注意力机制。
例如,Shi 等人[36]适应视觉引导的语言注意来学习每个视觉区域的自适应语言语境。
Ye 等人[38]使用多个非本地模块,以全连接的方式更新每个像素-字混合特征。
Hu 等人[16]设计了一个双向关系推断网络来建模语言与视觉之间的关系,实现了多模态特征之间的串行相互引导。
Huang等人,[17]首先根据实体和属性词感知图像中的所有实体,然后使用关系词对所有实体之间的关系进行建模。
LSCM [19]利用基于依赖解析树的词图来指导多模态上下文的学习。类似地,这些方法也使用了解码器融合策略。此外,它们不会同时更新语言和视觉特征,这可能会削弱语义空间中语言和视觉的一致性。与以往的工作不同,我们设计了一种并行更新机制来增强多模态表示的兼容性,并在编码器中进行了多模态特征匹配。我们还提出了一个边界增强模块来指导解码阶段的多级特征的逐步融合。

3. Proposed Method

3.1. Encoder Fusion with Co-Attention

Encoder fusion network.

对于输入图像,本文使用ResNet101提取视觉特征。ResNet101 由5个基本块组成:conv1、res2、res3、res4 和 res5。来自这五个块的特征映射被表示为 { E i } i = 1 5 \{E_i\}^{5}_{i=1} {Ei}i=15 与之前的解码器多模态融合方法不同,我们在res3、res4 和 res5之后插入语言特征,ResNet被映射为一个多模态的特征提取器。该设计充分利用了深度CNN模型的数据拟合能力,实现了跨模态特征的深度交织。

Multi-modal feature representation.

对于一个给定的表达式,我们将word embeddings { e t } t = 1 T \{e_t\}^T_{t=1} {et}t=1T输入BiGRU,以生成语言上下文 { h t } t = 1 T \{h_t\}^T_{t=1} {ht}t=1T,其中T表示语言的长度。我们采用一个简单的连接策略来生成初始的多模态特征,并将其表示为:
m p = w [ e i p , h T , s i p ] (1) m_p=w[e^p_i,h_T,s^p_i]\tag{1} mp=w[eip,hT,sip](1)其中, e i p e^p_i eip 是在位置p 处的 E i E_i Ei 的特征向量, s i p s^p_i sip 表示 8D 空间坐标,遵循[16]中的设计。w是可学习的参数。然后利用 m p m_p mp 计算特定位置的语言上下文 l p l_p lp
在这里插入图片描述
l p l_p lp 对每个词的处理都不同。它可以抑制语言表达式中的噪声,突出所期望的区域。接下来,特征映射 M = [ m p ] M = [m_p] M=[mp] L = [ l p ] L = [l_p] L=[lp] 通过共同注意模块来实现多模态融合。

Vanilla co-attention.

我们设计了一种协同注意方案,它可以建模多模态特征之间的依赖关系,并将多模态特征投影到共同特征子空间中。为便于描述,M的大小定义为 C × H × W C×H×W C×H×W,其中H、W和C分别表示它的高度、宽度和通道数。特征L与M具有相同的维度。
首先,将特征M和L扁平为大小为 C × ( H W ) C×(HW) C×(HW) 的矩阵表示。其中仿射矩阵 A ∈ R H W × H W A∈R^{HW×HW} ARHW×HW 的计算方法如下: A = ( W m M ) T ( W l L ) (3) A = (W_mM)^T(W_lL)\tag{3} A=(WmM)T(WlL)(3)然后,我们使用softmax函数对相似度矩阵进行归一化,如下: A 1 = s o f t m a x ( A ) A 2 = s o f t m a x ( A T ) (4) A_1 = softmax(A)\\ A_2 = softmax(A^T)\tag{4} A1=softmax(A)A2=softmax(AT)(4)然后A分别与M L各自相乘得到新的M 和 L: M ~ = M A 1 T L ~ = L A 2 T (5) \tilde{M}=MA_1^T\\ \tilde{L}=LA_2^T \tag{5} M~=MA1TL~=LA2T(5)然后将 M ~ , L ~ \tilde{M},\tilde{L} M~,L~ 按通道concat得到融合特征F,F被归一化并添加到编码器特征E中。这种机制可以根据其他模式的信息提供额外的互补线索,以实现这两种模式之间的相互指导。
tu2

Asymmetric co-attention.

此外,我们提出了一个非对称共注意模块(ACM),以降低计算成本。受[45]的启发,我们使用金字塔池模块(PPM)对特征映射M和L进行采样。PPM由四个尺度的特征箱组成,然后将其扁平并连接起来,形成一个大小为 C 1 × N , N < < H W C_1×N,N<<HW C1×N,N<<HW 的矩阵。在这里,特征 bin 的大小分别设置为1×1、3×3、6×6和8×8。因此,M和L的自仿射矩阵可以计算为:

在这里插入图片描述
其中, S A m SA_m SAm S A l SA_l SAl 表示模态特异性的相似度矩阵。进一步将这两个矩阵组合起来如下: A 3 = s o f t m a x ( ( S A m + S A l ) T ) (7) A_3=softmax((SA_m+SA_l)^T) \tag{7} A3=softmax((SAm+SAl)T)(7)
然后,使用行向归一化矩阵 A 3 ∈ R ( H W ) × N A_3∈R^{(HW)×N} A3R(HW)×N 来协助更新多模态特征:
tu8

在这里插入图片描述

3.2. Boundary Enhancement Module

在cnn中,重复的步幅和池化操作会导致精细结构信息的丢失,从而可能会模糊预测区域的轮廓。以前的工作[38,1,16,17,19]在解码器中执行多尺度融合时没有明确考虑细节的恢复。在本工作中,我们设计了一个边界增强模块(BEM),它以边界特征为指导,使网络关注更精细的细节,实现预测的逐步细化。其结构如图2所示。具体来说,对于解码器特征 { D i } i = 1 5 \{D_i\}^5_{i=1} {Di}i=15,我们首先计算边界感知特征:
B i = S i − S T N ( S i ) (9) B_i=S_i-STN(S_i)\tag{9} Bi=SiSTN(Si)(9)其中,STN表示一个空间变压器网络[20]。在这里,我们利用它来从Si中抽取高级抽象语义信息。因此,剩余的Bi描述了其精细的结构。边界图的预测过程可以写成:

在这里插入图片描述

B M i − 1 BM_{i−1} BMi1 由目标区域的真实轮廓进行监督。
接下来,我们利用边界特征 B ~ i − 1 \tilde{B}_{i−1} B~i1 将分割掩码细化如下:
在这里插入图片描述
其中, S i − 1 S_{i−1} Si1 实际上结合了解码器特征Di和Di−1的信息。 S M i − 1 SM_{i−1} SMi1 表示细化的掩模,由真值分割监督。取最后一个解码器块中的 S M 1 SM_1 SM1 作为最终的预测图,如图2所示。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值