自顶向下的GAMMA显著性——学习搜索复杂场景中的对象
本文是个人学习笔记,转载请标注。
原文:Top-down Gamma Saliency - Learning to Search for Objects in Complex Scenes 2018 International Joint Conference on Neural Networks (IJCNN) DOI: 10.1109/IJCNN.2018.8489657
摘要
显著性测量常被用来预测图像中的注视点,然而纯自底向上的显著性对于复杂场景中有许多对象的视觉搜索是没有用处的,因为它只由输入图像驱动。另外,神经网络在场景中定位对象,但是依赖于启发式边界框的蛮力分类。作者提出了一种自顶向下的注意力机制,将传统的显著性测量与神经网络的学习能力相结合来区分对象。为此,使用一组由经过训练的分类网络的卷积层生成的特冲图作为显著性度量的输入,而不是使用传统的RBG或者LAB图像。在这些特征图的顶部,我们可以学习一组权重来对特定对象的显著性进行偏置。作者在一个合成环境中,测试了这种自顶向下的方法与传统的自底向上的方法,证明在复杂场景寻找目标,自顶向下方法更快。
引言
在复杂、杂乱的场景中搜寻目标是计算机视觉中的一个难题。神经网络已被证明很适合进行图像对象分类。但大多数分类数据集仍然处理单一的对象图像,其中不包含大量的自然图像。自顶向下的度量方法在发现特定对象和预测搜索模式方面更加有效。由于神经网络已被证明擅长学习特征来区分对象,而显著性测量是快速、可靠的人类注意力指标,作者将这两种方法结合起来,使用基于学习的神经网络卷积滤波器特征映射作为输入,而不是传统的RGB图像作为显著性度量。通过这样做,从一组经过优化以区分对象的特性开始。此外,通过学习这些滤波器上的一组权重,对激活网络中某些滤波器的特定对象的显著性进行偏置。
方法
视觉搜索系统是基于与自底向上相同的Gamma显著性的视觉注意。关于自底向上的Gamma显著性可以参考上一篇笔记。
g
k
,
μ
(
n
1
,
n
2
)
=
μ
k
+
1
2
π
k
!
n
1
2
+
n
2
2
k
−
1
e
−
μ
n
1
2
+
n
2
2
g_{k,\mu }(n_1,n_2)=\frac{\mu^{k+1}}{2\pi k!} \sqrt[{k-1}] {n_1^{2}+n_2^{2}} e^{-\mu \sqrt{n_1^{2}+n_2^{2}}}
gk,μ(n1,n2)=2πk!μk+1k−1n12+n22e−μn12+n22
g
t
o
t
a
l
=
∑
m
=
0
M
−
1
=
(
−
1
m
)
g
m
(
k
m
,
μ
m
)
g_{total}=\sum^{M-1}_{m=0}=(-1^{m})g_{m}(k_{m},\mu_{m})
gtotal=m=0∑M−1=(−1m)gm(km,μm)
S
=
∑
n
−
1
N
w
n
i
∣
g
⋅
C
n
∣
α
N
S=\frac {\sum ^{N} _{n-1} w ^i _n\left | g \cdot C_n \right | ^\alpha} {N}
S=N∑n−1Nwni∣g⋅Cn∣α
在自下而上的Gamma显著性中,这些特征映射将是RGB或LAB图像的通道,此处,为了实现自顶向下的Gamma显著性,我们提出一组来自全连接卷积网络的特征映射
C
C
C,不像全连接层,神经网络的卷积层与输入大小无关。因此,可以使用标准数据集(例如MNIST)训练一个分类网络,然后将卷积层部分从网络中抽离,使用其预处理任何大小的图片。 在此过程中,将创建一组feature map,用于区分训练集中的对象。
另外,可以在这组feature map上学习出一组权值
w
w
w,使显著性更加偏向目标。通过学习与每个对象对应的一组权值,作者将自底向上的显著性度量转换为能够在更少的注视点中找到对象的自顶向下显著性度量。
下面方程是一种学习每个对象
i
i
i 对应权重
w
n
w_n
wn的简单方法。
w
n
=
∑
1
M
s
I
n
m
s
O
n
m
M
w_n=\sum^M_1{\frac{ \frac{s^m _{I_n}}{s^{m}_{O_{n}}} }{M}}
wn=1∑MMsOnmsInm
其中,
m
m
m为指定图片,
n
n
n为对象类别。
在包含对象位置的训练集上,假设
w
n
i
=
1
w_n^i=1
wni=1,我们可以计算每个原始显著性映射,令
s
i
n
m
s_{i_{n}}^m
sinm为边界框内的显著性,
s
O
n
m
s_{O_{n}}^m
sOnm为边界框外的显著性,求取比值并计算训练集上的均值。以此给出了每个特征映射对应的目标的权重,这样的权重实现了边界框内的显著性比边界框外的显著性对应的权重占比更多。
下面的方程依旧使用的标准的显著性后处理技术——模糊的显著性映射和一个小高斯滤波器卷积,以及给最终的映射一个中心偏差。
通过这种处理方式,最终得到一组经过训练的特征图,用于分离场景中需要寻找的目标。同时,有了学习的权值,显著性比单纯的自底向上的显著性更加偏置于目标。