文章目录
摘要
弱监督方法
参考图像分割的目的是通过自然语言表达来定位图像中的对象。以往的研究大多是利用包含分割标签的大规模数据集来学习参考图像分割,但成本较高。我们提出了一种弱监督学习方法用于参考图像分割,该方法仅使用现成的图像-文本对。我们首先训练一个图像-文本匹配的视觉语言学模型,并通过Grad-CAM提取视觉显著性图来识别每个单词对应的图像区域。然而,我们发现了Grad-的两个主要问题。
首先,缺乏对单词间关键语义关系的考虑。我们通过块内一致性和块间一致性来建模词之间的关系来解决这个问题。其次,Grad-CAM只能识别被引用对象的小区域,导致召回率低。
因此,我们在Transformer中使用自关注和无监督对象形状先验来改进定位地图。
在三个流行的基准测试(RefCOCO, RefCOCO+, G-Ref)上,我们的方法明显优于最近的同类技术。我们还表明,我们的方法适用于各种级别的监督。
引言
构建像素级别的分割标签极其费力、昂贵。
已经存在的弱监督方法能够根据给定文本定位相应物体,用一个方块图像的形式来监督。然而,这有两个关键缺点:1)它们不提供所引用对象的像素级定位,2)它们大多数严重依赖于预训练的对象检测器,这实际上需要明确的对象定位标签。
据本文所知,最近仅有一个工作,仅使用 image-text pairs学习RIS,但效果远落后于全监督方法。
利用块内一致性和块间一致性获得的Grad-CAM可以更准确地定位被引用对象,但它仍然存在两个缺点。首先,它只识别被引用对象的小区域,因为目标对象的所有区域对于ITM都不是必需的。其次,由于图像-文本对中缺乏物体形状信息,Grad-CAM不能表示物体的精确边界。因此,我们提出了两种细化技术,利用从视觉变形和无监督物体形状先验中获得的补丁亲和力(patch affinity)来获得更完整的参考物体分割。
方法
我们首先从3.1节的视觉语言转换器的知识中获得图像区域与给定句子中每个单词之间的匹配。为了获得更精确的区域词匹配,我们在3.2节中引入了块内一致性和块间一致性。然后,我们提出了细化技术,以获得3.3节中提到的对象的完整分割。最后,我们在第3.4节中提出了一种利用额外监督的方法。
3.1 参考对象的定位
Grad-CAM[40]是一种解释神经网络输出的流行技术。它计算网络的中间特征对梯度流输出的贡献。
每个单词的Grad-CAM示例如图1(a)所示。
Grad-CAM[40]是一种解释神经网络输出的流行技术。它计算网络的中间特征对梯度流输出的贡献。我们获得ALBEF的Grad-CAM[27]的方法如下:我们首先从
E
m
E_m
Em中获得交叉关注映射
A
m
u
l
t
i
∈
R
(
1
+
N
p
)
×
(
1
+
N
w
)
A_{multi}∈R^{(1+Np)×(1+Nw)}
Amulti∈R(1+Np)×(1+Nw),并计算出
A
m
u
l
t
i
A_{multi}
Amulti对
s
I
T
M
s^{ITM}
sITM的贡献为
∂
s
I
T
M
/
∂
A
m
u
l
t
i
∂s^{ITM}/∂A_{multi}
∂sITM/∂Amulti。Grad-CAM
M
∈
R
(
1
+
N
p
)
×
(
1
+
N
w
)
M∈R^{(1+N_p)×(1+N_w)}
M∈R(1+Np)×(1+Nw)可表示为:
M
∈
R
(
1
+
N
p
)
×
(
1
+
N
w
)
M∈R^{(1+N_p)×(1+N_w)}
M∈R(1+Np)×(1+Nw)中的每个元素衡量每个 word-patch pair 对
s
I
T
M
s^{ITM}
sITM的贡献有多大。
因此,通过收集所有关于单词w的贡献分数,我们可以得到每个单词w的视觉显著性映射,即
M
w
∈
R
N
p
×
N
p
M_w∈R^{\sqrt{N_p} \times \sqrt{N_p}}
Mw∈RNp×Np。更具体地说,我们收集单词w对应的gradm - cam分数(即
M
[
:
,
i
d
w
]
∈
R
(
1
+
N
p
)
M[:,id_w]∈R^{(1+\sqrt{N_p})}
M[:,idw]∈R(1+Np),其中
i
d
w
id_w
idw是w对应的索引),去除图像patch令牌中的[CLS]令牌,并将其重塑为二维矩阵。每个单词的Grad-CAM示例如图1(a)所示。
理想情况下,每个单词的Grad-CAM应该通过考虑相邻单词的语义来生成,这可以通过Transformer[44]中的单词之间的自关注来实现。然而,仅使用ITM训练的模型难以捕获单词之间的组成一致性,导致句子中每个单词的grad - cam定位不一致。例如,在图1(a)中,基线的“女性”的Grad-CAM识别图像中的所有女性,而不考虑邻近的单词,如“灰色”和“衬衫”。这对于只需要识别被引用对象的参考图像分割来说是有问题的。因此,在这项工作中,我们提出了一种新的正则化技术,将块内和块间的关系结合起来,使模型考虑给定表达式中单词之间的关系。
3.2 块级的表示学习
尽管基于树的递归语言结构[6]在捕获组合关系方面很流行,但它们通常包含太多不相关的细节,使得只提取必要信息变得困难。因此,我们通过名词组块使用组块级表示。
假设一个给定文本中包含一系列的noun-chunk
C
=
{
c
}
C=\{c\}
C={c},一个noun-chunk中包含一系列的单词
c
=
{
w
}
c=\{w\}
c={w},其中包含首名词及其修饰词(从属词)。为了纳入这些一致性要求,我们用损失L来训练我们的模型:
L
=
L
A
L
B
E
F
+
λ
1
L
i
n
t
r
a
+
λ
2
L
i
n
t
e
r
L=L_{ALBEF}+\lambda_1L_{intra}+\lambda_2L_{inter}
L=LALBEF+λ1Lintra+λ2Linter
3.2.1 intra-chunk consistency
由于单个名词块由头名词和描述头名词的相关词组成,因此一个名词块中的所有词都应该表示图像中的相同对象。
然而,名词块中每个单词的grad - cam倾向于识别不同的对象,如图1(a)所示。因此,我们引入了一种正则化,使得单个名词块中的单词具有相似的grad - cam。
3.2.2 inter-chunk consistency
由于在一个单个的noun-chunk中的所有单词都表明图像中的同一个物体,故能够让一个chunk中所有单词的Grad-CAMs更加相近,如公式3。但不同chunk间的实体描述的不一定是同一个物体,这取决于两个chunk间的谓语(predicate)。
donut(甜甜圈)
这里说明准确的位置线索对于构建chunks间的关系很重要。
本文提出了一个closeness prior: 匹配到相邻chunks的对象必须在空间上彼此接近。
In the example of “man holding a donut”, among many men in an image, a man near a donut is likely to be the target object.
然而,closeness的定义很模糊,因为对于像素距离的"close" and "far"需要相对于物体大小。
具体来说,首先计算某块
c
c
c的Grad-CAM通过
M
c
=
1
∣
c
∣
∑
w
∈
c
M
w
M_c = \frac{1}{|c|}\sum_{w \in c}M_w
Mc=∣c∣1∑w∈cMw。不失一般性,对于相邻的
c
i
c_i
ci和
c
j
(
i
≠
j
)
c_j(i \neq j)
cj(i=j),使得区域
M
c
i
M_{c_i}
Mci和
M
c
j
M_{c_j}
Mcj在空间上尽可能相近,较远的区域尽可能被抑制。
这里有个问题,对于“the man without a blue hat”这种 without关系,closeness prior 想法完全不适用,文章是如何解决的呢?
对于块内的像素来说,尽可能增大块内的像素的affinity score,增大不同块的像素的affinity score。
3.3 refinement technique
在推理过程中,我们将给定句子中单词的grad - cam的平均值作为参考对象的最终定位图 M f i n a l M_{final} Mfinal。 M f i n a l M_{final} Mfinal提供了被引用对象的准确指示。然而,由于只有一小部分目标物体可以为ITM提供强信号,因此grad - cam往往只覆盖目标物体的一小部分区域,如图1(a)所示。此外,由于图像-文本对事先不提供任何物体形状,因此生成的渐变凸轮不能描绘物体的确切边界。因此,我们提出两点改进.
3.3.1 patch affinity in vision transformer
使用ALBEF模型作为基础模型。
Image tokens
x
v
∈
R
(
1
+
N
p
)
×
d
x_v \in R^{(1+N_p) \times d}
xv∈R(1+Np)×d
word tokens
x
t
∈
R
(
1
+
N
w
)
×
d
x_t \in R^{(1+N_w) \times d}
xt∈R(1+Nw)×d
对每个模态的token,都加入[CLS] token.
获取图文匹配(ITM)分数
s
I
T
M
s^{ITM}
sITM,为匹配的图像-文本对生成正分数,为不匹配的图像-文本对生成负分数。
训练结束后,该模型获得了对图像和文本联合语义进行建模的能力,这反过来又使我们能够使用Grad-CAM等模型解释技术提取图像区域和单词之间的关系[40]。
3.3.2 unsupervised shape prior
3.3.1中的 refinement with affinity 帮助我们找到一个属于参考对象的更完整的区域。然而,由于物体形状先验信息不存在,结果的定位图也不能表示参考对象的实际界限。因此,我们用无监督的object shape prior进一步refine 定位图。我们使用多尺度组合分组(MCG)[2]来改进我们的定位地图。MCG以无监督的方式对图像的底层信息进行操作,因此不违反弱监督学习的基本要求。MCG为单个图像生成多个掩码建议{m}。在这些建议中,我们选择与 m r m^r mr重叠最多的建议 m ∗ m^* m∗,就intersection-over-union (IoU)而言。我们确定m *为最终定位。
3.4 utilization of additional supervision
我们的方法可在各级监管下运行,显示了该方法的通用性和实用性。
我们考虑两种设置:1)带边界框标签的弱监督设置和2)半监督设置。
在设置1)中,我们假设我们有训练图像的参考对象的边界框标签。我们使用BBAM[26]技术在给定的盒子中获得像素级定位,BBAM是来自box的掩码生成器。我们将得到的定位图视为伪地面真值分割
Y
b
o
x
Y_{box}
Ybox。然后我们在Eq. 2中加入一个box loss
L
b
o
x
L_{box}
Lbox,因此生成的Grad-CAM
M
f
i
n
a
l
M_{final}
Mfinal相似于
Y
b
o
x
:
L
b
o
x
=
c
o
s
(
M
f
i
n
a
l
,
Y
b
o
x
)
Y_{box}:L_{box}=cos(M_{final}, Y_{box})
Ybox:Lbox=cos(Mfinal,Ybox)。在设置2)中,我们假设仅对少数训练图像具有完全监督的像素级标签
Y
f
u
l
l
Y_{full}
Yfull。对于这些图像,我们计算
L
s
e
m
i
=
c
o
s
(
M
f
i
n
a
l
,
Y
f
u
l
l
)
L_{semi} = cos(M_{final}, Y_{full})
Lsemi=cos(Mfinal,Yfull),并结合公式2对网络进行优化。注意,我们没有在这两种设置中应用任何细化技术,因为所提供的显式定位提示本质上可以解决3.3节中提到的grad - cam的缺点。
4. Experiment
5.Conclusion
在这项研究中,我们提出了一种仅使用图像-文本对学习参考图像分割的新方法。我们的方法利用给定文本表达的语言结构,通过块内和块间的一致性来生成更精确的本地化地图。然后,我们使用从视觉变形器的自注意地图和无监督对象形状先验中获得的patch affinities来改进这些地图。通过广泛的实验,我们表明我们提出的方法在三个流行的基准测试中优于当前最先进的技术。此外,我们通过将其与不同级别的监督相结合,展示了我们方法的多功能性。在未来的工作中,通过对表达式应用拼写纠正和探索 对于负约束的正则化技术来提高我们方法的鲁棒性将是有趣的。