文章翻译自“Predicting visual attention using gamma kernels” 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)
此博客是个人关于视觉显著性的学习笔记。
摘要
显著性测量通常用来预测视觉注意,不同于人类视觉系统所看到的,显著性通常是在一组单一分辨率的图像上测试的。作者提出了一种新的显著性测量方法,它是基于图像与二维伽马核的卷积来实现中心与周边区域的比较。Gamma核中的两个参数提供了一种理想的方法来改变中心和周围邻居的大小,这使得在不同尺度上发现显著性更加简单和快速。作者在两个样本上测试了新的显著性测量,并与其它简单显著性方法进行比较。此外,作者在多伦多数据库的中心凹版本(a foveated version of the toronto database是什么意思,评论可一帮我解释一下)上测试这些方法,以测试这些方法在类似于人类视觉系统的固定系统中是否表现良好。结果表明,与标准数据库和凹型数据库中的竞争方法比较,Gamma saliency 性能更好,计算速度更快。
引言
人类有能力在极短的时间内看到一个场景并形成一个完整的表现。然而,由于场景的复杂性,我们有理由假设人类不会关注和处理图像中每一个小区域。相反,整个图像通过一个金字塔处理机制,只选择固定小区域进行更多的关注。通过只选择这些小区域,人类视觉系统能够快速处理场景片段,并在大脑中形成图像整体表现的存储。目前的图像处理趋向于通过与滤波器进行卷积来处理整个图像。
本文从HVS(人类视觉系统)获得灵感,通过只处理一些子区域,形成整个场景的整体表现。关于显著性有两种观点:围绕中心的方法(center-surround method),比较局部中心与周围邻居; 全局上下文方法(global context method),比较图像中任意位置的区域与其他区域。而这两种观点与人类视觉系统的显著性表达有根本区别,人类视觉只有在一个叫做 中心凹的小区域才能获得高分辨率的数据,这个区域是注意力集中的地方,在特定时间内,注视点周围大约有3°的视角。因此除了自下而上的显著性外,人类大脑还必须通过 推断/回忆 旁周信息,来计算未来关注点。
为了解决生物学研究和计算机研究之间的这一关键区别,需要一个框架来将图像从单一分辨率转换成多分辨率。使用具有清晰视野和模糊边缘的图像称为中心成像(foveated imaging)。作者提出一种更接近人类标准的视觉系统,希望显著性测量应该能够预测出初始焦点区域之外的感兴趣的区域。
除了显著性,Gamma核已经用在了目标检测。Gamma核的圆形形状用于比较中心区域和局部领域很理想。圆形的大小可以通过两个参数来控制,这也使得改变尺度很容易。此外,gamma核有很多特性,例如递归计算能力和平滑的周边,使它很适合信号处理。本文基于卷积2维Gamma核提出了新的显著性测量。
方法
Gamma显著性是基于中心环绕原则,如果它与周围不同,则中心区域是显著的。为了计算这些局部差异,使用强调一个中心的2维gamma核,同时通过卷积将其与一个局部领域进行对比。二维Gamma核表达如下:
g
k
,
μ
(
n
1
,
n
2
)
=
μ
k
+
1
2
π
k
!
n
1
2
+
n
2
2
k
−
1
e
−
μ
n
1
2
+
n
2
2
g_{k,\mu }(n_1,n_2)=\frac{\mu^{k+1}}{2\pi k!} \sqrt[{k-1}] {n_1^{2}+n_2^{2}} e^{-\mu \sqrt{n_1^{2}+n_2^{2}}}
gk,μ(n1,n2)=2πk!μk+1k−1n12+n22e−μn12+n22
对于多尺度显著性度量,我们只需在卷积阶段之前合并不同大小的多个内核:
g
t
o
t
a
l
=
∑
m
=
0
M
−
1
=
(
−
1
m
)
g
m
(
k
m
,
μ
m
)
g_{total}=\sum^{M-1}_{m=0}=(-1^{m})g_{m}(k_{m},\mu_{m})
gtotal=m=0∑M−1=(−1m)gm(km,μm)
可以递归的计算Gamma核,递归特性可以被用来扩展使用,在视频显著性等事件结构中工作。
将图像分解成特征矩阵,每个矩阵与多尺度核进行卷积,将这些矩阵组合并取幂以突出峰值,然后使用高斯模糊和中心偏差进行后处理以增强结果。
特征矩阵由CIELab color space组成:亮度矩阵和两个颜色对抗矩阵。在CIElab空间中,两种颜色之间的距离可以简单的用欧几里得距离来计算,这是作者在卷积中利用的一个有用的性质,每个矩阵与多尺度核卷积,得到每个通道的显著性测量:
S
=
∣
g
⋅
L
∣
+
∣
g
⋅
a
∣
+
∣
g
⋅
b
∣
3
S=\frac{\left | g \cdot L\right |+\left | g \cdot a\right |+\left | g \cdot b\right |}{3}
S=3∣g⋅L∣+∣g⋅a∣+∣g⋅b∣
此时得到了整体的显著性映射,这里有常用的后处理方法来改善结果:首先,通过设置
α
\alpha
α>1增强峰值,其次,人类倾向于关注图像的中心,所以对图像的中心进行高斯加权,高斯的方差取决于图像的大小。最后为了减少噪声的影响,并创建一个更精简的映射,使用一个小的高斯核进行模糊处理,表达如下:
S
=
(
s
α
G
(
σ
2
)
)
⋅
G
(
.
5
)
S=(s^\alpha G(\sigma ^2))\cdot G(.5)
S=(sαG(σ2))⋅G(.5)
结果
结果是在toronto数据集和CAT2000训练集计算的。Toronto数据库包括120张图片,供20名学生自由观看4秒钟。 CAT2000数据库有来自20种不同类别的2000幅图片,用于各种图像的前景和背景,以及18个观察者的固定数据。观察者被要求5秒内自由观看每张图片,每张图片的视角大约为38像素。对比算法参数使用默认参数,gamma显著性参数使用:
k
=
[
1
,
1
,
1
,
26
,
25
,
19
]
k=[1, 1,1,26,25,19]
k=[1,1,1,26,25,19],
μ
=
[
2
,
1
,
.
5
,
2
,
1
,
.
5
]
\mu =[2,1,.5,2,1,.5]
μ=[2,1,.5,2,1,.5],
α
=
5
\alpha=5
α=5。