文章完整信息:
标题:Saliency Detection for Stereoscopic Images
作者:Fang, YM (Fang, Yuming)[ 1 ] ; Wang, JL (Wang, Junle)[ 2 ] ; Narwaria, M (Narwaria, Manish)[ 2 ] ; Le Callet, P (Le Callet, Patrick)[ 2 ] ; Lin, WS (Lin, Weisi)[ 3 ]
期刊名称:IEEE TRANSACTIONS ON IMAGE PROCESSING
卷: 23 期: 6 页: 2625-2636
DOI: 10.1109/TIP.2014.2305100
出版年: JUN 2014
分类:3D classic saliency model
全文:PDF
代码:Code
Saliency detection for stereoscopic images
Abstract
目前,立体显示的新兴应用需要新的立体图像显著性检测模型。与二维图像的显著性检测不同,立体图像的显著性检测必须考虑深度特征。
本文提出了一种基于颜色、强度、纹理和深度的特征对比度的立体显著性检测框架。
从DCT系数中提取颜色、亮度、纹理和深度四种特征来表示图像的能量。
考虑到局部对比度和全局对比度的计算,采用高斯模型计算图像块之间的空间距离。
设计了一种新的融合方法,将特征图结合起来计算立体图像的最终显著性图。
在一个最新的眼睛跟踪数据库上的实验结果表明,该方法在三维图像显著性估计方面优于其他现有方法。
1.Introduction
视觉注意机制有两种不同的方法:1.自下而上方法 2.自上而下方法
自下而上的方法,是一种基于数据驱动和任务无关的感知过程,用于自然场景的显著区域自动选择,而自上而下的方法是一种受执行任务、目标特征分布等影响的任务相关的认知过程。
本文提出了一种基于颜色、亮度、纹理和深度的特征对比度的显著性检测框架。该模型基本上建立在图像块之间的能量对比度基础上,用于表示图像块的中心环绕差异(the center-surround differences)。
DCT(离散余弦变换)是能量压缩的一种较好的表示方法,其信号信息大多集中在DCT的几个低频分量上。[DCT的能量压缩属性]
在该算法中,首先将输入图像和深度图分割为多个小图像块。根据原始图像中每个图像块的DCT系数提取颜色、亮度和纹理特征,根据深度图中每个图像块的DCT系数提取深度特征。
特征对比度的计算基于图像块之间的中心包围特征差,并考虑局部对比度和全局对比度,采用高斯空间距离模型进行加权。
基于特征图的压缩性,设计了一种新的融合方法,对特征映射进行融合,得到三维图像的最终显著性图。
2.THE PROPOSED MODEL
2.1 Feature Extraction
首先介绍了该模型的特征提取。
在本研究中,先将输入影像分割成小块图像块,再利用DCT系数来表示每个图像块的能量。
由于RGB图像的感知特性,首先将其转换为YCbCr颜色空间。在Y Cb Cr颜色空间中,Y分量表示亮度信息,Cb和Cr是两个颜色分量。在DCT中,DC系数表示图像块中所有像素的平均能量,AC系数表示图像块的详细频率特性。
因此,我们使用Y分量的DC系数来表示图像块的亮度特征, 采用Cb和Cr分量的DC系数表示颜色特征:
L
=
Y
D
C
,
C
1
=
C
b
D
C
,
C
2
=
C
r
D
C
L = Y_{DC}, C_1 = C_{bDC}, C_2 = C_{rDC}
L=YDC,C1=CbDC,C2=CrDC
我们只使用Y分量的AC系数来表示图像的纹理特征。现有的一个研究表明,在一个8×8的图像块中,前9个低频交流系数可以代表大部分的能量。因此我们使用前9个低频AC系数来表示每个图像块的纹理特征:
T
=
{
Y
A
C
1
,
Y
A
C
2
,
.
.
.
,
Y
A
C
9
}
T = \{Y_{AC1},Y_{AC2}, ..., Y_{AC9}\}
T={YAC1,YAC2,...,YAC9}
对于深度特征,首先基于视差计算感知深度信息。图像对的深度图M可以计算为:
M
=
V
1
+
d
⋅
H
P
⋅
W
(
1
)
M = \frac{V}{1+\frac{d\cdot H}{P\cdot W}} (1)
M=1+P⋅Wd⋅HV(1)
其中,V表示观察者的视距;d表示两眼间的距离;P表示像素之间的视差;W和H分别表示显示屏的宽度(cm)和水平分辨率。
深度特征:
D
=
M
D
C
D=M_{DC}
D=MDC
综上所述,我们获得了输入的立体图像的关于颜色,亮度,纹理和深度的五个特征
(
L
,
C
1
,
C
2
,
T
,
D
)
(L, C_1, C_2, T, D)
(L,C1,C2,T,D)
2.2 Feature Map Calculation
根据FIT理论( Feature Integration Theory),视觉场景中的显著区域会因其与周围区域的特征对比而弹出。因此,直接提取视觉场景中显著区域的方法是计算视觉场景中图像块与其周围块之间的特征对比度。
在本研究中,我们会根据此图片路径与图片中所有其他图像块之间的特征对比度来估计每个图像块的显著性值。
人们普遍认为HVS是高度空间变异的,这是由于视网膜中的视锥感光细胞密度不同所致。
随着固定区域离心度的增加,视觉锐度降低,这意味着HVS对近邻域的特征对比度比远邻域的特征对比度更敏感。因此,我们在显著性估计中考虑了HVS的这一性质。
由于高斯模型的一般性,在特征图计算中,我们采用了一种基于图像块间空间距离的高斯模型来加权特征对比度。
图像块i在特征k上的特征
F
i
k
F_{i}^{k}
Fik计算为:
F
i
k
=
∑
j
≠
i
1
σ
2
π
e
l
i
j
2
2
σ
2
U
i
j
k
(
2
)
F_{i}^{k}=\sum _{j\neq i}\frac{1}{\sigma \sqrt{2\pi }}e^{\frac{l_{ij}^{2}}{2\sigma ^2}}U_{ij}^k (2)
Fik=j=i∑σ2π1e2σ2lij2Uijk(2)
其中,
k
∈
{
L
,
C
1
,
C
2
,
T
,
D
}
k \in \{L, C_1, C_2, T, D\}
k∈{L,C1,C2,T,D};
l
i
j
l_{ij}
lij表示图像块i和j之间的空间距离;
U
i
j
k
U_{ij}^k
Uijk表示图像块i和j之间在特征k上的特征差;
σ
\sigma
σ是高斯模型的参数,它决定了显著性估计的局部和全局对比度。
从这个方程可以看出,每个图像块的显著性值是基于所有其他图像块的特征对比度计算的。由于不同空间距离的图像块权重值不同,该模型同时考虑了局部和全局对比度的显著性估计。
由于颜色、亮度和深度特征由DC系数表示,因此可以将两个图像块i和j之间的特征对比度计算为DC系数之间的差,如下所示:
U
i
j
m
=
B
i
m
−
B
j
m
B
i
m
+
B
j
m
(
3
)
U_{ij}^{m}=\frac{B_{i}^{m}-B_{j}^{m}}{B_{i}^{m}+B_{j}^{m}} (3)
Uijm=Bim+BjmBim−Bjm(3)
其中,
B
m
∈
{
L
,
C
1
,
C
2
,
D
}
B^m \in \{L, C_1, C_2, D\}
Bm∈{L,C1,C2,D},。
将纹理特征表示为9个低频交流系数,利用纹理特征计算特征对比度,图像块i与j之间的关于纹理的特征对比度
U
i
j
′
U_{ij}'
Uij′计算为:
U
i
j
′
=
∑
t
(
B
i
′
t
−
B
j
′
t
)
2
)
∑
t
(
B
i
′
t
+
B
j
′
t
)
(
4
)
U_{ij}' = \frac{\sqrt{\sum _t(B_{i}^{'t}-B_{j}^{'t})^2)}}{\sum _t(B_{i}^{'t}+B_{j}^{'t})} (4)
Uij′=∑t(Bi′t+Bj′t)∑t(Bi′t−Bj′t)2)(4)
其中,t代表AC参数,
t
∈
{
1
,
2
,
.
.
.
,
9
}
t\in\{1,2,...,9\}
t∈{1,2,...,9},
B
′
代
表
纹
理
特
征
B'代表纹理特征
B′代表纹理特征。
2.3. Feature Map Fusion
在得到公式(2)所示的特征图后,我们将这些特征图从颜色、亮度、纹理和深度进行融合,计算出最终的显著性图。在本研究中,我们提出一种新的方法来指派自适应权值来融合特征图。
一般来说,一个好的显著图中的显著区域应该是小而紧凑的,因为HVS总是聚焦于图像中一些特定的感兴趣区域。因此,一个好的特征图应该能够检测出图像中的小而紧凑的区域。
在不同特征图的融合过程中,对于显著区域小而紧凑的特征图,可以赋予更多的权值,而对于显著区域分布大的特征图,可以赋予更少的权值。
在这里,我们通过特征图的空间方差来定义紧凑性度量。特征图
F
k
F_k
Fk的空间方差
v
k
v_k
vk可以计算为:
v
k
=
∑
(
i
,
j
)
(
i
−
E
i
,
k
)
2
+
(
j
−
E
j
,
k
)
2
⋅
F
k
(
i
,
j
)
∑
(
i
,
j
)
F
k
(
i
,
j
)
(
5
)
v_k = \frac{\sum _{(i,j)}\sqrt{(i-E_{i,k})^2+(j-E_{j,k})^2}\cdot F_k(i,j)}{\sum _{(i,j)}F_k(i,j)} (5)
vk=∑(i,j)Fk(i,j)∑(i,j)(i−Ei,k)2+(j−Ej,k)2⋅Fk(i,j)(5)
其中,(i,j)是特征图中的空间位置,k代表特征通道,
k
∈
{
L
,
C
1
,
C
2
,
T
,
D
}
k\in\{L,C_1,C_2,T,D\}
k∈{L,C1,C2,T,D};
(
E
i
,
k
,
E
j
,
k
)
(E_{i,k}, E_{j,k})
(Ei,k,Ej,k)是显著区域的空间期望位置,计算如下:
E
i
,
k
=
∑
(
i
,
j
)
i
⋅
F
k
(
i
,
j
)
∑
(
i
,
j
)
F
k
(
i
,
j
)
(
6
)
E_{i,k} = \frac{\sum _{(i,j)}i\cdot F_k(i,j)}{\sum _{(i,j)}F_k(i,j)} (6)
Ei,k=∑(i,j)Fk(i,j)∑(i,j)i⋅Fk(i,j)(6)
E
j
,
k
=
∑
(
i
,
j
)
j
⋅
F
k
(
i
,
j
)
∑
(
i
,
j
)
F
k
(
i
,
j
)
(
7
)
E_{j,k} = \frac{\sum _{(i,j)}j\cdot F_k(i,j)}{\sum _{(i,j)}F_k(i,j)} (7)
Ej,k=∑(i,j)Fk(i,j)∑(i,j)j⋅Fk(i,j)(7)
我们使用规范化的
v
k
v_k
vk值来表示特征映射的紧凑性。在空间方差较大的情况下,特征映射应该不那么紧凑。特征图
F
k
F_k
Fk对应的紧凑性
β
k
\beta_k
βk计算为:
β
k
=
1
e
v
k
(
8
)
\beta _k = \frac{1}{e^{v_k}} (8)
βk=evk1(8)
根据上式(8),我们为最终的显著性图融合特征图如下:
S
=
∑
k
β
k
⋅
F
k
+
∑
p
≠
q
β
p
⋅
β
q
⋅
F
p
⋅
F
q
(
9
)
S = \sum _k \beta_k\cdot F_k + \sum_{p\neq q}\beta_p\cdot\beta_q\cdot F_p\cdot F_q (9)
S=k∑βk⋅Fk+p=q∑βp⋅βq⋅Fp⋅Fq(9)
式子(9)中的第一项代表用相应的紧凑性加权特征图的线性组合;而第二项则用于增强任何两个不同特征图都能检测到的共同显著区域。
与已有的对不同图像采用恒定加权值的研究不同,本文提出的融合方法根据图像的紧凑性对不同图像赋予不同的加权值。
3. Experiment evaluation
在这一部分中,我们基于研究中提出的眼睛跟踪数据库[28]来评估所提出模型的性能[23]。
[28] J. Wang, M. Perreira Da Silva, P . Le Callet,
and V . Ricordel, IRCCyN/IVC 3DGaze database,
http://www.irccyn.ec-nantes.fr/spip.php?article1102
&lang=en, 2011.
[23] J. Wang, M. Perreira Da Silva, P . Le Callet, and V . Ri-
cordel, Computational Model of Stereoscopic 3D Visual
Saliency. IEEE Transactions on Image Processing, 22(6):
2151-2165, 2013.
通过比较显著性检测模型中的地面真值图和显著性图,测试了该模型的性能。由于任何立体图像对都有左图像和右图像,因此我们使用左图像的显著性结果进行比较,类似于研究[23]。
利用PLCC(Pearson Linear Correlation
Coefficient)、KLD(Kullback-Leibler Divergence)和AUC(Area Under the Receiver Operating Characteristics Curve)来评估所提出的立体显著性检测模型的定量性能.
其中,PLCC和KLD直接由注视点密度图与预测显著性图的比较计算,AUC则由实际注视点图与预测显著性图的比较计算。
在PLCC和AUC值较大的情况下,显著性检测模型可以更准确地预测3D图像的显著区域。相比之下,注视点密度图和显著图之间的KLD值越小,显著性检测模型的性能越好。
定量比较结果见表1。
在表1中,[23]中的模型1代表了[1]中的二维显著性检测模型和[23]中的深度模型的融合方法;[23]中的模型2代表了[2]中2D显著性检测模型和[23]中深度模型的融合方法;模型3代表了[3]中2D显著性检测模型和[23]中深度模型的融合方法。
[1] L. Itti, C. Koch and E. Niebur. A model of saliency-based
visual attention for rapid scene analysis. IEEE Trans-
actions on Pattern Analysis and Machine Intelligence,
20(11), 1254-1259, 1998.
[2] N. D. Bruce and J. K. Tsotsos. Saliency based on informa-
tion maximization. Advances in Neural Information Pro-
cessing Systems, 18, 155-162, 2006.
[3] X. Hou and L. Zhang. Saliency Detection: A spec-
tral residual approach. IEEE International Conference on
Computer Vision and Pattern Recognition, 2007.
表1
Models | PLCC | KLD | AUC |
---|---|---|---|
Model 1 in [23] | 0.356 | 0.704 | 0.656 |
Model 2 in [23] | 0.424 | 0.617 | 0.675 |
Model 3 in [23] | 0.410 | 0.605 | 0.670 |
The Proposed Model | 0.5499 | 0.3589 | 0.7032 |
由该表可以看出,该模型的PLCC和AUC值大于[23]中模型的PLCC和AUC值,而该模型的KLD值小于[23]中模型的KLD值。这意味着,与文献[23]中的其他模型相比,该模型能够更准确地估计显著性图。
为了更好地展示该模型的优点,我们在图1中提供了来自不同模型的一些视觉比较样本。
从图的第二栏可以看出,融合模型中的立体显著性图结合Itti模型[1]和深度显著性[23]主要检测图像中显著区域的轮廓。其原因是[1]中的二维显著性检测模型主要通过局部对比度计算显著性图。类似地,对于图1的第三列的显著性映射也有相同的缺点。
对于融合模型通过结合[2]中的2D显著性模型和[23]中的深度显著性而得到的显著性结果,如图1的第四列的显著性图所示,在图像中检测出一些背景区域作为显著区域。
相反,如图1所示,从所提出的立体显著性检测模型得到的显著性结果可以从眼睛跟踪数据中相对于地面真值图估计更精确的显著区域。
4. Discussion and conclusion
实验结果表明,该模型在三维图像显著性估计方面比现有模型具有更好的性能。除了自下而上的机制外,自上而下的提示也可能是其优越的表现。本研究中使用的ground truth图是基于15秒内的人眼注视数据收集的,其中包括自下而上和自上而下机制产生的注视数据。
由于该算法是一种基于图像块的显著性检测方法,能够检测出三维图像中包含完整显著目标的ROI(如实验结果所示),因此该方法可能包含自顶向下机制。相比之下,[23]中包含2D显著性方法[1,2,3]的现有模型仅针对自底向上的机制。因此,该方法在三维图像显著性估计方面可以获得比文献[23]更好的性能。
总之,本研究提出一个新的立体显著性检测模型。从DCT系数中提取颜色、亮度、纹理和深度等特征来表示小图像块的能量。在考虑局部对比度和全局对比度的情况下,利用高斯空间距离模型加权能量对比度估计显著性。设计了一种新的融合方法,将特征图融合为最终的显著性映射。实验结果表明,基于最近的眼睛跟踪数据库的立体图像显著性检测模型具有良好的性能。