文章完整信息:
标题:Deep Visual Saliency on Stereoscopic Images
作者:Anh-Duc Nguyen ; Jongyoo Kim ; Heeseok Oh ; Haksub Kim ; Weisi Lin ; Sanghoon Lee
期刊名称:IEEE TRANSACTIONS ON IMAGE PROCESSING
卷: 28 期: 4 页: 1939-1953
DOI: 10.1109/TIP.2018.2879408
出版年: APR 2019
分类:3D deep learning saliency model
全文:PDF
代码:没找到
Deep Visual Saliency on Stereoscopic Images
Abstract
立体3D(S3D)图像的视觉显著性受到图像质量的严重影响。因此,这种相关性是影响图像质量预测、图像恢复和不适感降低的重要因素,但在图像中这种非线性关系的预测仍然非常困难。此外,大多数专门用于检测原始图像视觉显著性的算法在面对失真图像时可能会意外地失败。
本文研究了一种深度视觉显著性(DeepVS)学习方案,以获得一个更精确、更可靠的显著性预测。由于视觉显著性从心理物理的角度受到低层特征(对比度、亮度和深度信息)的影响,我们提出了七个从S3D图像对中提取的低层特征,并在深度学习的背景下利用它们自适应地检测视觉注意。
在分析过程中发现,低层特征对提取失真和显著性信息起到了一定的作用。为了构造显著性预测因子,我们通过回归和完全卷积神经网络两种不同的网络结构对人类视觉显著性进行加权和建模。实验结果表明,预测的显著性图与人眼注视模式的相关性高达70%,强调了在S3D显著性检测中,需要将手工特征作为深部神经网络的输入。
I. INTRODUCTION
大量的研究已经被提出用于预测自然2D场景中的显著区域[16]–[18],[21],[22],[51],并且性能变得更加精确和可靠。然而,随着S3D图像中引入视差,这些模型无法捕捉深度感知驱动的显著性,这可能导致预测结果与人类实际观察的位置相差甚远。
尽管S3D内容越来越受欢迎,但只有少数几个模型可以弥补这个缺点[4]、[9]、[10]、[38]、[52].
[4] N. D. B. Bruce and J. K. Tsotsos, “An attentional framework for stereo
vision,” in Proc. Can. Conf. Comput. Robot Vis., May 2005, pp. 88–95.
[9] K. Desingh, K. M. Krishna, D. Rajan, and C. V . Jawahar, “Depth really
matters: Improving visual salient region detection with depth,” in Proc.
Brit. Mach. Vis. Conf., 2013, pp. 98.1–98.11.
[10] Y . Fang, J. Wang, M. Narwaria, P. Le Callet,and W. Lin, “Saliency detection for stereoscopic images,” IEEE Trans. Image Process., vol. 23,
no. 6, pp. 2625–2636, Jun. 2014.
[38] C. Lang, T. V . Nguyen, H. Katti, K. Yadati, M. Kankanhalli, and S. Yan,
“Depth matters: Influence of depth cues on visual saliency,” in Computer
Vision—ECCV. Berlin, Germany: Springer, 2012, pp. 101–115.
[52] J. Wang, M. P. da Silva, P. Le Callet, and V . Ricordel, “A computational
model of stereoscopic 3D visual saliency,” IEEE Trans. Image Process.,
vol. 22, no. 6, pp. 2151–2165, Jun. 2013.
另外,可能影响视觉注意的另一个重要线索是图像质量。
在2D情况下,大多数常见的失真对人类的注视模式没有显著的影响[42],[43]。
然而,在S3D的情况下,已经证明,众所周知的失真强烈地影响视觉注意[26],[32],因为失真极大地影响人类的深度知觉[39],这是驱动人类注视的主要因素。
举个具体的例子,当图像模糊时,观众倾向于将视线转移到靠近物体的地方[26]。如果在图像中,感兴趣的对象已经在附近,那么注意力的转移就很小。
相反,如果图像中感兴趣的对象又远又小,则很难识别这些对象,因此它们将目光转向前景对象。
在这种情况下,观看原始图像和失真图像时凝视行为的差异非常显著。这种现象的图示如图1所示。
另一个决定预测性能的因素是计算资源。
之前,一些基于自下而上原理的研究不需要太多的计算来源,但这些研究产生的显著性图通常与人类地面真实数据没有很好的相关性。
因此,许多自上而下的方法[25],[55]都是基于机器学习模型,被提出来从人类地面真实数据中获益。近年来,由于引入了深度学习(deep learning),显著性检测器的性能得到了极大的提高。这种方法的一个缺点是模型的复杂性。深度网络通常需要大量的资源和数据进行训练。这些数据和资源可能不易获得。因此,在许多情况下,更适合使用资源友好的方法。一个想法是开发几个简单的手工工程特性,以减少深度模型的深度。
为了在不牺牲精度的前提下降低深度学习的模型复杂度,本文提出了一种深度视觉显著性(DeepVS)框架,该框架利用适合于显著性检测问题的多种特征作为深度网络的输入。为了更好地说明我们考虑的因素和特点,主要有以下几点。
- Distortion: 三维视觉中的失真也会损害深度知觉,并导致许多问题,如双眼竞争和双眼抑制[32]、[39]、[45]。这些问题对视觉注意的影响比二维情况更为显著。
- Depth/Disparity: 在S3D情况下,我们可以利用同一场景的两幅图像的重叠,并回溯到真实的场景,轻松地恢复相对深度。
- Content Characteristics: 诸如颜色、亮度、边缘等低级特征是驱动人类注意力的众所周知的因素。但是很多基于深度学习的研究忽略了这些低层特征。研究表明,与原始输入相比,手工提取的特征可以进一步提高深度学习的性能[13]。此外,人们普遍认为,深层网络的前几层通常学习简单和低级的特性。因此,显式地使用低级特征作为输入是合理的,并且降低了模型的复杂性。
- Relevant HVS Property: 在观看S3D内容时,观察到与在2D中观看该图像相比,观看者被吸引到图像中的不同区域,并且,当视觉内容失真时,S3D图片对的模糊性受到影响,从而导致双目竞争或双目抑制等现象。因此,有必要根据人类的光学和生理特征来量化视觉显著性,包括双眼融合和中心凹[27],[33]。
我们提出的框架,如图2所示,包括两个阶段:特征提取和学习。
在特征提取阶段,受[26]的启发,我们从S3D对中提取代表性特征,从颜色、亮度和视差信息中提取代表性特征,以根据HVS中的心理物理特征来检测人类的注视模式。
在学习阶段,我们选择了一种深度学习方法来验证特征,这种方法在给定足够数据的情况下优于传统的机器学习方法。我们建议在提取的特征上使用回归卷积网络(DeepVS-R)和完全卷积网络(DeepVS-F),以证明任何架构都可以从我们手工制作的特征中获益。
在显著性检测方面,我们首先将该模型的结果与现有模型的结果进行了比较,然后分析了如何使用现有深度学习中的技巧(bells and whistles)来提高性能。此外,我们还深入分析了每个特征对视觉注意的重要性。
最后,我们将网络的隐藏层实际学习到的内容可视化。通过严格的实验和基准测试,我们证明了我们的显著性检测方案在保持简单直接的体系结构的同时,与当前的顶级模型具有竞争力。
总结文章的主要贡献:
- 引入了不同的低层信息,对失真的S3D图像依然有良好的显著性检测性能。
- 说明了在S3D显著性检测中,手工制作的特征作为深网络输入的必要性
- 对传统的卷积神经网络(CNNs)进行了改进,提高了显著性检测模型的性能。
II. FEATURE EXTRACTION
A. Feature Maps
注意行为受亮度和颜色梯度、视差和深度不连续性等低层成分的强烈影响[9]、[10]、[26]、[38]。这些特征的一个显著特点是,它们有助于深层网络在隐藏层中提取语义上有意义的、人可以理解的信息,这一点会在Section IV-D中得以证明。
在本研究中,输入到深度学习模型的数据是从颜色、亮度和视差中提取的一组特征。
提取这些地图的过程简单,在许多方面与数据增强、特征规范化和零相位分量分析白化(这是深度学习领域中流行的预处理技术)相似。详细过程如下所述。
1.Binocular Information
在感知上,每个S3D图像对在大脑中融合为一个虚拟的单个图像,称为独眼图像。
本研究所使用的人工独眼影像是由立体影像对、对应的视差图及Gabor滤波器响应组成(4个方向:水平、对角线和垂直,频率为3.67圈/度)。这种形式的独眼图像已经被证实与我们大脑中融合的S3D图像有很强的相关性[6]。记
I
I
I为独眼图像:
I
(
x
,
y
)
=
W
L
(
x
,
y
)
I
L
(
x
,
y
)
+
W
R
(
x
+
d
,
y
)
I
R
(
x
+
d
,
y
)
(
1
)
I(x,y) = W_L(x,y)I_L(x,y)+W_R(x+d,y)I_R(x+d,y) (1)
I(x,y)=WL(x,y)IL(x,y)+WR(x+d,y)IR(x+d,y)(1)
其中,
I
L
I_L
IL和
I
R
I_R
IR分别为左右图像,
W
L
W_L
WL和
W
R
W_R
WR是Gabor滤波器响应的大小,(x,y)表示像素坐标,d表示每个像素对应的视差。独眼图像
I
I
I的RGB通道是七个特征图中的前三个。
【转载一篇关于Gabor滤波器的博客】
2.Content Information.
我们使用亮度和颜色梯度[10]、[17]、[27]来揭示亮度和颜色在空间域中的变化。
从独眼图像
I
I
I中提取归一化亮度和颜色梯度图。记
Δ
l
\Delta _l
Δl为亮度梯度。归一化亮度梯度为:
Δ
l
=
1
δ
l
M
(
▽
x
I
)
2
+
(
▽
y
I
)
2
)
(
2
)
\Delta _l = \frac{1}{\delta _l^{M}}\sqrt{(\bigtriangledown _xI)^2+(\bigtriangledown _yI)^2)} (2)
Δl=δlM1(▽xI)2+(▽yI)2)(2)
其中,
▽
x
I
\bigtriangledown _xI
▽xI 和
▽
y
I
\bigtriangledown _yI
▽yI分别是独眼图像
I
I
I在水平方向和垂直方向上的空间梯度,
δ
l
M
\delta _l^{M}
δlM 是平方根项的最大值。
为了获取颜色信息,将独眼图像从RGB转换成CIELab颜色空间,成为
I
L
a
b
I_{Lab}
ILab,归一化颜色梯度
Δ
c
\Delta_c
Δc定义为:
Δ
c
=
1
2
δ
c
,
a
M
(
▽
x
I
a
)
2
+
(
▽
y
I
a
)
2
)
+
1
2
δ
c
,
b
M
(
▽
x
I
b
)
2
+
(
▽
y
I
b
)
2
)
(
3
)
\Delta_c = \frac{1}{2\delta _{c,a}^{M}}\sqrt{(\bigtriangledown _xI_a)^2+(\bigtriangledown _yI_a)^2)} + \frac{1}{2\delta _{c,b}^{M}}\sqrt{(\bigtriangledown _xI_b)^2+(\bigtriangledown _yI_b)^2)} (3)
Δc=2δc,aM1(▽xIa)2+(▽yIa)2)+2δc,bM1(▽xIb)2+(▽yIb)2)(3)
其中,
I
a
I_a
Ia 和
I
b
I_b
Ib 是
I
L
a
b
I_{Lab}
ILab的a和b通道,
δ
c
,
a
M
\delta _{c,a}^{M}
δc,aM 和
δ
c
,
a
M
\delta _{c,a}^{M}
δc,aM 是相应的左、右平方根项的最大值。这两张地图是接下来的两个特征图。
3.Disparity Information.
在我们的研究中,我们利用文献[50]中的光流方法来估计像素视差。这里,我们只使用水平轴上的位移,因为我们对视差有很强的先验。
[50] D. Sun, S. Roth, and M. J. Black, “Secrets of optical flow estimation and
their principles,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit.,
Jun. 2010, pp. 2432–2439.
对于失真图像,失真区域可能会导致图像融合中的严重问题,例如双眼竞争或抑制[39],这也会影响人类的注意力。
因此,我们通过在左图像和右图像之间进行相关测量来细化估计的视差信息。
我们在S3D对上执行简单的块搜索以进行视差估计,如果匹配的块具有低相关性(在我们的实验中小于0.4),则块的视差值简单地设置为零;否则,该值将为1。
此策略是专门为深度学习模型设计的,给模型一些关于失真的提示。因为这些失真会导致图像中的许多不规则,最终会影响估计的视差。
获得S3D场景图片的视差信息
D
D
D之后,定义视差图为:
D
^
=
D
M
−
D
D
m
−
D
(
4
)
\hat{D} = \frac{D_M-D}{D_m-D} (4)
D^=Dm−DDM−D(4)
其中,
D
M
=
m
a
x
(
x
,
y
)
D
(
x
,
y
)
,
D
m
=
m
i
n
(
x
,
y
)
D
(
x
,
y
)
D_M=max_{(x,y)}D(x,y),D_m = min_{(x,y)}D(x,y)
DM=max(x,y)D(x,y),Dm=min(x,y)D(x,y)
此外,视差梯度计算如下:
Δ
D
=
1
δ
(
▽
x
D
)
2
+
(
▽
y
D
)
2
\Delta _D = \frac{1}{\delta}\sqrt{(\bigtriangledown_xD)^2+(\bigtriangledown_yD)^2}
ΔD=δ1(▽xD)2+(▽yD)2
最后,通过将上述所有特征( I c h a n n e l _ R , I c h a n n e l _ G , I c h a n n e l _ B , Δ l , Δ c , D ^ , Δ D I_{channel\_R},I_{channel\_G}, I_{channel\_B}, \Delta_l, \Delta_c, \hat{D}, \Delta_D Ichannel_R,Ichannel_G,Ichannel_B,Δl,Δc,D^,ΔD)深度串联起来,获得七通道输入。
B. Human Perception of Saliency
为了研究人类观看图像的行为,通常使用从眼睛跟踪器获得的注视图作为ground truth,眼睛跟踪器可以准确定位人类在图像中的观看位置。然而,这些地面真值注视图大多由零和一些在显著区域的零组成。这种稀疏数据不适合大多数损失函数,因为它可能会鼓励学习算法在几乎所有地方以最佳方式产生零。因此,注视图是高斯模糊的,σ为1度视角,这与HVS中的视力相对应。
人类显著性数据的另一个问题是噪声。为了去除噪声,可以应用阈值化或执行均值减[3]。然而,这样做会导致由于失真而导致显著信息丢失的风险,从而损害我们的目的。因此,在本文中,我们考虑中心凹,这是指图像在中心凹处最清晰,并且随着移动到边缘而模糊的现象。中心凹是一个非均匀采样的过程,因为感光细胞在中心凹处分布最密集,当一个感光细胞从视网膜中心移向周边时,数目迅速减少。在[40]和[41]之后,中心凹模型被定义为:
f
(
x
)
=
m
i
n
(
e
2
l
n
(
1
C
T
0
)
ϵ
(
e
+
e
2
)
,
π
ω
l
360
)
(
6
)
f(x) = min(\frac{e_2ln(\frac{1}{CT_0})}{\epsilon (e+e_2)},\frac{\pi \omega l}{360}) (6)
f(x)=min(ϵ(e+e2)e2ln(CT01),360πωl)(6)
其中,
l
l
l是人眼与固定点之间的距离,
C
T
0
=
1
64
CT_0=\frac{1}{64}
CT0=641 是最小对比度阈值,
e
2
e_2
e2=2.3是半分辨率偏心率常数,e是偏心率,以及
ϵ
\epsilon
ϵ=0.106是空间频率衰减常数[12]。
[40] S. Lee and A. C. Bovik, “Fast algorithms for foveated video processing,” IEEE Trans. Circuit Syst. Video Technol., vol. 13, no. 2, pp. 149–162,Feb. 2003.
[41] S. Lee, M. S. Pattichis, and A. C. Bovik, “Foveated video compression with optimal rate control,” IEEE Trans. Image Process., vol. 10, no. 7,pp. 977–992, Jul. 2001.
[12] W. S. Geisler and J. S. Perry, “Real-time foveated multiresolution system for low-bandwidth video communication,” Proc. SPIE, vol. 3299,pp. 294–306, Jul. 1998
中心凹因子可以定义为:
F
f
(
x
)
=
f
(
x
)
f
(
s
(
x
)
)
(
7
)
F_f(x) = \frac{f(x)}{f(s(x))} (7)
Ff(x)=f(s(x))f(x)(7)
其中,
x
x
x是一个像素,
s
(
x
)
s(x)
s(x)是它最近的显著点。
我们记
S
^
\hat{S}
S^为高斯模糊ground truth注视图。定义了中心凹后,对于每个显著图
S
^
\hat{S}
S^,最终的地面真值显著图被定义为:
S
(
x
)
=
F
f
(
x
)
×
S
^
(
x
)
(
8
)
S(x) = F_f(x)\times\hat{S}(x) (8)
S(x)=Ff(x)×S^(x)(8)
HVS处理的map的示例如图3所示.
可以看出,预处理模糊了人类注意力不太集中的区域,照亮了大多数观众看的地方。因此,在保持原始图像的显著性映射与导出的失真图像的显著性映射之间的差异的同时,地面真值不包含太多的噪声。
III. LEARNING TO PREDICT SALIENCY
回归方法的类似应用可以在图像质量评估中找到,以生成补丁的质量分数[28],或在人群计数中预测人口密度[54]。
另一方面,在图像生成问题中,全卷积方法更受欢迎,因为该网络可以获取全分辨率图像并产生任何大小的输出。
在这项研究中,为了证明我们的特性可以被任何架构所利用,我们定义了两个CNN模型来对所提出的七通道特性图进行基准测试。
A. Regression Convolutional Neural Network(DeepVS-R)
图像中的一个区域之所以显著,是因为它不仅具有与周围环境不同的特征,而且还具有人类可理解的语境信息。
为了获得局部及全局信息,这里自然需要一个多尺度的神经网络。
在多尺度的情况下,我们希望该模型能够在图像区域上有一个粗糙到精细的视图,这样它不仅可以捕获局部纹理,还可以捕获更多的全局上下文信息[11]。
在此基础上,我们提出了一个用于失真S3D显著性检测(DeepVS-R)的三尺度回归CNN。回归CNN的类似应用可以追溯到人群计数[54],但据我们所知,这是将回归应用于显著性检测的第一个工作。我们模型的架构如图4所示。
该模型由多尺度(Multi-scale)和聚集(Aggregation)两部分组成。多尺度零件本身由三个独立的平行模型组成。每个模型有五个卷积层和一个完全连接层。在第一层、第二层和第五层之后有一个max pooling操作符。
所有层的激活函数是校正线性单位(ReLU),这是其生物学合理性的声誉[15]。然后,这三个模型的输出被连接起来,然后集成到聚合部分。在聚合部分,有两个完全连接的层。第一层是以ReLU为激活函数的普通隐藏层。最后一层是线性的,输出一个标量分数。
DeepVS-R的输入数据准备如图5所示。
在七通道特征图形成后,它们被调整为320x640,并以20像素的步幅分成三个比例的面片。每个面片从图像的第一个像素开始以每个像素为中心。
第一、第二和第三标度的宽度分别为50、100和200。图像用零填充,以便与边缘附近的像素对应的块与其他块大小一致。最后,将两个较大的比例尺缩小到最粗糙的比例尺。将斑块中心像素的显著性得分作为因变量的值。
【深度学习中的一些技巧】在训练中,为了加快收敛速度和避免过度拟合问题,我们采用了一些在深度学习文献中常用的技巧。
- 在反向传播过程中,采用批处理规范化(BN)方法来帮助梯度传播。正如作者所建议的, L 1 L_1 L1正则化系数被设置为小(10-5)。
- 所有的网络参数都是用Xavier的方法初始化的[14]。
- 为了快速接近一个好的或全局的最小值,用Adadelta[53]优化了均方误差(MSE)损失函数。Adadelta的各项参数均按作者的建议设置。
B. Fully Convolutional Neural Network(DeepVS-F)
回归方法的一个缺点是需要将图像分割成块,当并行工作器不可用时,这是一个很大的开销。
因此,我们建议使用另一个模型,即完全卷积网络,它可以以一个完全分辨率的特征映射作为输入。
对于这种方法,我们在[3]中定制了FUCOS,并称之为DeepVS-F。模型的架构如图6所示。
该模型可以看作VGG16网络[48]的卷积层和几个用于密度预测的转置卷积层的组合。
一些定制包括从VGG16[48]匹配的权重中去除权重,并且用ADAM[35]优化模型,而不是随机梯度下降。
dropout 率设为0.2。DeepVS-F的输入是七通道图。在这项工作中,我们开发了一个适合显著性检测问题的代价函数。代价函数是:
L
(
Θ
,
α
,
β
)
=
C
E
(
Y
,
S
b
i
n
;
Θ
)
+
M
S
E
(
Y
^
,
S
;
Θ
,
α
,
β
)
+
1
0
−
4
×
R
(
Θ
)
+
1
0
−
4
×
s
(
Y
^
,
S
;
Θ
)
(
9
)
L(\Theta, \alpha, \beta) = CE(Y,S_{bin};\Theta) + MSE(\hat{Y},S;\Theta, \alpha, \beta) + 10^{-4}\times R(\Theta) + 10^{-4}\times s(\hat{Y},S; \Theta) (9)
L(Θ,α,β)=CE(Y,Sbin;Θ)+MSE(Y^,S;Θ,α,β)+10−4×R(Θ)+10−4×s(Y^,S;Θ)(9)
其
中
,
Y
^
=
α
⊙
Y
(
Θ
)
+
β
(
⊙
表
示
阿
达
玛
积
)
其中,\hat{Y} = \alpha \odot Y(\Theta)+\beta(\odot 表示阿达玛积)
其中,Y^=α⊙Y(Θ)+β(⊙表示阿达玛积)
S是地面真值显著性图(batch size m,高度h,宽度w);
S
b
i
n
S_{bin}
Sbin是由阈值
τ
\tau
τ二值化的二值地面真值(本文中的通常设置为0.15);
Y是DeepVS-F的预测图;
Y
^
\hat{Y}
Y^是Y的参数化版本,是我们最后的预测图;
α
\alpha
α和
β
\beta
β 是形状(h,w)的参数,和其他网络的参数一样需要学习;
Θ
\Theta
Θ是深度模型的参数;
C
E
(
Y
,
S
b
i
n
;
Θ
)
CE(Y,S_{bin};\Theta)
CE(Y,Sbin;Θ)是二元交叉熵;
M
S
E
(
Y
^
,
S
;
Θ
,
α
,
β
)
MSE(\hat{Y},S;\Theta, \alpha, \beta)
MSE(Y^,S;Θ,α,β)是参数化MSE代价,定义为:
M
S
E
(
Y
^
,
S
;
Θ
,
α
,
β
)
=
1
m
×
h
×
w
∥
Y
^
−
S
∥
F
2
MSE(\hat{Y},S;\Theta, \alpha, \beta) = \frac{1}{m\times h\times w}\left \| \hat{Y} - S \right \|_F^2
MSE(Y^,S;Θ,α,β)=m×h×w1∥∥∥Y^−S∥∥∥F2
=
1
m
×
h
×
w
∥
(
α
⊙
Y
(
Θ
)
+
β
)
−
S
∥
F
2
(
10
)
=\frac{1}{m\times h\times w}\left \| (\alpha \odot Y(\Theta)+\beta) - S \right \|_F^2 (10)
=m×h×w1∥(α⊙Y(Θ)+β)−S∥F2(10)
其中,
R
(
Θ
)
R(\Theta)
R(Θ)是
L
2
L_2
L2正则化项。
最后一项
s
(
Y
^
,
S
;
Θ
)
s(\hat{Y},S; \Theta)
s(Y^,S;Θ)是梯度相似性,定义为:
s
(
Y
^
,
S
;
Θ
)
=
1
m
×
h
×
w
∑
m
i
=
1
∑
d
∈
(
h
,
v
)
)
∥
∂
Y
i
^
∂
d
−
∂
S
i
∂
d
∥
F
2
(
11
)
s(\hat{Y},S; \Theta) = \frac{1}{m\times h\times w}\sum_{m}^{i=1}\sum_{d\in(h,v))}\left \| \frac{\partial \hat{Y_i}}{\partial d} -\frac{\partial S_i}{\partial d}\right \|_F^2 (11)
s(Y^,S;Θ)=m×h×w1m∑i=1d∈(h,v))∑∥∥∥∥∥∂d∂Yi^−∂d∂Si∥∥∥∥∥F2(11)
其中d是水平或垂直方向(horizontal or vertical )。
第一个和在所有空间位置上,第二个和在一个batch中的m个图像上。
最终的预测图是 Y ^ = α ⊙ Y ( Θ ) + β \hat{Y} = \alpha \odot Y(\Theta)+\beta Y^=α⊙Y(Θ)+β.
最初,FUCOS[3]是用MSE代价函数训练的,但是我们发现用MSE训练DeepVS-F是不稳定的。
我们还考虑了分类任务中常用的sigmoid交叉熵(CE)。然而,我们发现这个成本函数并没有给出很好的性能。
当显著图被二值化时,由于模型没有被教导直接预测显著幅度,预测的相关性受到损害。
因此,在这项工作中,我们使用了CE和MSE的组合。我们用形状与输入图像相同的两个可训练的掩模 α \alpha α和 β \beta β来参数化MSE,而不是由于CE和MSE在优化过程中的行为完全不同而必然失败的两个代价的简单相加,我们在Section IV-B节分析了这些可训练参数的影响。
IV . EXPERIMENTAL RESULTS AND ANALYSIS
我们选择了IEEE-SA S3D[1]和LIVE1[44]数据库。
[1] IEEE-SA Stereo Image Database 2012. [Online]. Available: http://grouper.ieee.org/groups/3dhf/
[44] A. K. Moorthy, C.-C. Su, A. Mittal, and A. C. Bovik, “Subjective evaluation of stereoscopic image quality,” Signal Process., Image Commun. vol. 28, no. 8, pp. 870–883, Dec. 2013.
在前者中,有26个原始图像(ORI)及其5种类型的失真版本(高斯模糊(blur)、FF、JP2K、JPEG、白高斯噪声(WN))在5个失真度递增的级别上。这个数据库总共有676幅图像。
在后者中,有20个参考图像和365张失真图像(JP2K、JPEG、WN和FF各80张;模糊45张)。
与IEEE-SA数据集不同,LIVE1不提供失真级别的标签。为了获得固定地面的真实数据,我们对20名年龄在20到30岁的人进行了眼动跟踪实验。采用“智能眼专业”作为双目视觉跟踪器,结合分辨率为1600×900的23”偏振立体显示器。这个实验是在一个黑暗的房间里进行的,以便与传统的主观实验进行公平的比较。关于实验的更多信息可以在[23]和[26]中找到。
对于所有匹配VGG-16的权重,我们从ImageNet上的预训练VGG-16初始化它们,防止因数据过少而过拟合。
通过实验,作者发现验证损失在epoch8之后出现饱和,在epoch12之后出现过度拟合迹象。因此,在这段时间内任何时候停止训练都是合理的。在实施过程中,我们在epoch12结束了训练进程。
最后,我们用不同的训练/测试划分对该方法进行了五次交叉验证,并对五次测试的结果进行了平均。
与以往的模型进行比较:
A. Comparison With Other Methods
从表二可以看出,自底向上的方法有一个共同的趋势,即当图像更失真时,性能往往较低。
然而,这种趋势在深度学习方法中并不存在,因为学习过程可能有助于这些算法学习在不同失真程度上区分图像。
然而,从这些表中我们可以看到,在深度学习方法中,除了SAM Restnet之外,所有的模型都没有很好的表现。
SAM-Restnet与Proposed model在内存与速度上的比较
模型 | SAM-Restnet | Proposed model |
---|---|---|
内存 | 31M parameters | 37M parameters |
速度 | 0.35s/image | 0.05s/image |
为了演示预测显著性图的应用示例,我们测量了不同失真水平下基准算法的ToVA分数[26]。
ToVA得分高表明两个显著性图之间存在显著差异。根据[26],图像越失真,其显著性地图与其原始版本的显著性地图就越不同,于是ToVAl分数越高。
为了测量每种方法对图像中存在的失真的响应程度,我们测量了图像的预测显著性映射与其原始版本的估计映射之间的ToVA分数。注意,我们只计算了与基本事实有意义相关的结果的ToV A分数(即,具有较高的CC和AUC分数),因为ToV A最初设计用于处理基本事实显著性地图,因此,如果预测地图不准确,则测量模型对失真的反应是没有意义的。
计算ToVA分数
首先,两个显著图之间的相对显著熵定义为:
D
f
r
e
f
∣
∣
f
t
a
r
=
E
f
r
e
f
[
l
o
g
f
r
e
f
(
x
)
−
l
o
g
f
t
a
r
(
x
)
]
(
12
)
D_{f_{ref} || f_{tar}} = E_{f_{ref}}[log f_{ref}(x)-log f_{tar}(x)] (12)
Dfref∣∣ftar=Efref[logfref(x)−logftar(x)](12)
其中,x是像素坐标,
f
r
e
f
,
f
t
a
r
f_{ref} ,f_{tar}
fref,ftar分别是参考和目标显著性图,
在实践中,显著性映射被重复地二次采样并被划分为不重叠的块,以多尺度、多块的方式执行ToVA。让 s 表示标度的数目,b表示块的数目。没有规范化的ToV A分数计算如下:
T
o
V
A
u
n
n
o
r
m
(
f
r
e
f
,
f
t
a
r
)
=
∑
i
s
∑
j
b
D
(
f
r
e
f
i
,
j
∣
∣
f
t
a
r
i
,
j
)
s
(
13
)
ToVA_{unnorm}(f_{ref},f_{tar}) = \frac{\sum_{i}^{s}\sum_{j}^{b}D(f_{ref}^{i,j} || f_{tar}^{i,j})}{s} (13)
ToVAunnorm(fref,ftar)=s∑is∑jbD(frefi,j∣∣ftari,j)(13)
研究表明,ToV A分数与图像质量下降和观众视觉不适程度密切相关。
B. Significance of the Proposed Cost Function
为了了解所提出的代价函数对预测显著性图的影响,我们使用代价函数的几种变体来训练DeepVS-F。Table V显示了这些模型的性能。
在我们看来,显著性预测包括两个子问题:
- 预测像素是否显著(分类)
- 估计像素是否显著(回归)。
因此,使用CE或MSE可以一次解决一个问题。
更糟糕的是,这两个度量的简单相加并不能真正比每个个体更好地工作,因为CE将显著区域内(外)的值推到1(0),而MSE试图使这些值与基本真相的值完全相同。
代价函数中引入的参数打破了这两个度量之间的链条:无论CE值有多大,α和β都可以明智地重新缩放它们的像素。因此,分离的CE和MSE可以自由地执行它们的任务,并且性能相应地提高。
对这些参数的另一种解释如下。对于任何七通道输入X,输出可以通过 Y = f ( X ) Y=f(X) Y=f(X)获得,其中f是经过训练的CNN。最后,将掩模应用于输出,预测显著性图为 Y ^ = α ⊙ Y + β \hat{Y}=α\odot Y+β Y^=α⊙Y+β。从这个角度,我们可以看到这些掩模起到了类似于[10]和[36]中的中心偏置的作用。
在以往的研究中,中心偏向先验是基于人们倾向于观察图像中心的观察而启发式构造的。相比之下,我们没有明确地建立中心偏倚图的模型;我们希望网络能够学习如何纠正sigmoid产生的高估预测,这更类似于[37]中的方法。
C. Significance of the Seven-Channel Feature Map
- RGB独眼图像:这有助于深层网络识别显著对象和部分失真类型。然而,预测结果与人类数据的相关性并不好,因为人们不看整个物体,而只看某些特定的部分。
- 颜色和亮度梯度:这些特征图是区分失真的主要因素。这些特征与独眼图像有竞争性的定量得分,但定性结果似乎更好。虽然这些特征图提高了整体性能,但收益并没有预期的那么多。
- 视差和视差梯度:这种信息在大多数情况下占主导地位。如我们所见,这些特征图和RGB独眼图的结合已经产生了非常好的性能。这表明在某些情况下使用RGB-D可能已经足够了。
- 总之,每个特征对整个模型的性能起着重要作用。当使用所有的特征时,网络可以削弱它们的影响,这有助于更好地进行相关预测。
D. Network Dissection
在这一部分中,我们希望获得一些语义上的洞察,了解深层网络在不同输入方面学习到了什么。在这里,我们跟随[2]进行了一个网络解剖实验,以研究DeepVS-F中激活图与地面真值显著图之间的语义对比。
V. CONCLUSION
在本研究中,我们使用从亮度、颜色和视差信息中提取的七个低层特征图,并将它们有效地整合到两个基于深度学习的模型中,对失真的S3D图像进行显著性预测。
通过提出DeepVS-R和DeepVS-F两种模型,我们成功地利用了深度学习框架中提取的特征。而DeepVS-R通过使用补丁程序,从一个明确的多尺度架构和更大的数据库中获益,DeepVS-F可以通过对预训练模型进行微调来获得相似的性能,但预处理和训练时间都显著缩短。
结果表明,尽管该模型结构简单,但在显著性检测问题上仍优于其他方法。我们还分析了每个特性对整体性能的贡献,并发现深层网络的每个层在语义上如何与人类可理解的概念相一致。