解读这篇论文的优秀博客:
1.阅读图像显著性检测论文一:A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
2.论文笔记:A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
文章完整信息:
标题:A Model of Saliency-Based Visual Attention
for Rapid Scene Analysis
作者: Laurent Itti, Christof Koch, and Ernst Niebur
期刊名称:IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE
出版年: 1998
分类:2D classic saliency model
全文:PDF
代码:Code (GBVS的项目,但是有Itti的代码)
A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
Abstract
一个视觉注意系统,灵感来源于早期灵长类视觉系统的行为和神经元结构。多尺度图像特征组合成一张地形显著图。然后,动态神经网络按照显著性降低的顺序选择显著位置。该系统通过以计算效率高的方式快速选择要详细分析的显著位置来解决复杂的场景理解问题。
1 INTRODUCTION
灵长类动物在实时解读复杂场景方面有着非凡的能力,尽管用于此类任务的神经元硬件速度有限。中级和高级视觉处理似乎在进一步处理之前选择可用感官信息的子集[1],最有可能降低场景分析的复杂性[2]。
这种选择似乎是以视野的空间限定区域,即所谓的“注意力焦点”(FOA)的形式实现的,该区域以快速、自下而上(bottom-up)、显著性驱动和任务无关的方式扫描场景,以较慢、自上而下(top-down)、意志控制和任务相关的方式扫描场景[2]。
根据博客阅读图像显著性检测论文一:A Model of Saliency-Based Visual Attention for Rapid Scene Analysis的解读:
- 举个例子,有十个陌生人朝你走过来,从左到右第八个人穿的黑色衣服,其他九个人穿的白色衣服,除了衣服颜色不一样,其他一模一样。不带任何主观目的地看,你会首先注意到谁?一般来说我们会注意到穿黑色衣服的那个人,为什么呢?因为他和其他九个人衣服颜色不一样,即他在这十个人里面是显著的,人类会首先注意到显著的东西。
- bottom-up method: 在“十个人”的例子,如果你不带任何目的的看这十个人,那你首先注意到的一般会是黑色衣服的那个人,这就是bottom-up的方式,我对这里bottom-up的理解是bottom指的是场景,up指的是大脑,即场景中什么东西最特别,那我的大脑就先注意到什么东西。bottom-up的前提是你不带任何目的的看
- top-down method: 那假如说现在我接到了一个任务,告诉我说事实上这十个人里面,最左边的那个是一位特工,其他9个人都是他的替身,用来掩人耳目的而已,而我要做的事情是和真正的特工接头,比如说走到那个特工面前然后对念两句唐诗就完成了接头。那么当这十个人朝你走过来的时候,你会首先注意到哪个人?可以类比你去机场或者车站接朋友的时候,在人群中我们一定会先注意到朋友在哪儿,而不会是其他人在哪儿。这就是top-down的方式,即我们大脑中已经有了一个目的或者说任务要找谁,然后当场景出现的时候自然就会基于这个任务去选择首先注意到谁。
————————————————
版权声明:本文为CSDN博主「熊彬程的博客」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/xbcreal/article/details/53433035
注意模型包括“动态路径”模型,在该模型中,只有来自视野的一小部分区域的信息可以通过皮层视觉层次结构进行处理。
在自上而下(任务相关)和自下而上(场景相关)的控制下,通过动态改变皮层连接或通过建立特定的时间活动模式来选择注意区域[3]、[2]、[1].
这里使用的模型(图1)建立在第二个生物可移植的架构之上,由Koch和Ullman提出[4],并基于几个模型[5],[6]。
它与所谓的“特征整合理论”有关,解释了人类的视觉搜索策略[7]。
视觉输入首先分解为一组地形特征图。然后,不同的空间位置在每个图中争夺显著性,这样,只有在局部相对其周围突出的位置才能持续存在。所有的特征图都以一种纯粹的自下而上的方式输入到一个主“显著性图”中,主“显著性图”通过地形编码来表示整个视觉场景的局部显著性。在灵长类动物中,这种图被认为位于后顶叶皮质[8]以及丘脑枕核的各种视觉图[9]。该模型的显著图被赋予了产生注意转移的内在动力。因此,这个模型代表了自下而上的显著性,不需要任何自上而下的指导来转移注意力。
该框架为快速选择少量感兴趣的图像位置提供了一种大规模并行的方法,以便分析更复杂和耗时的目标识别过程。在“引导搜索”中扩展这种方法,使用来自更高皮质区域(例如,关于待发现目标的知识)的反馈来加权不同特征的重要性[10],这样只有那些具有高权重的特征才能达到更高的处理水平。
2 MODEL
输入以静态彩色图像的形式提供,通常以 640 × 480 640\times 480 640×480分辨率数字化。使用并矢高斯金字塔(dyadic Gaussian pyrams)[11]创建了9个空间尺度,该金字塔渐进地对输入图像进行低通滤波和下采样,产生在8个八度(octaves)中从1:1(标度0)到1:256(标度8)的水平和垂直图像压缩因子。
根据博客SIFT解析(一)建立高斯金字塔的解释,
高斯金字塔 金字塔总要有个变“尖”的过程,真正的高斯金字塔要有个平滑以及下采样的过程,因此整个图像平滑以及下采样再平滑,构成的所有图像集合才构成了图像的高斯金字塔。
octaves: 八度,八度就是在特定尺寸(长宽)下,经不同高斯核模糊的图像的集合。八度的集合是高斯金字塔。
————————————————
版权声明:本文为CSDN博主「honpey」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/honpey/article/details/8639617
每一个特征都是通过一组类似于视觉感受野的线性“中心环绕(center-surround)”操作来计算的(图1):典型的视觉神经元在视觉空间的一个小区域(中心)最敏感,而刺激呈现在一个更广的区域,与中心(周围)同心的弱拮抗区抑制神经元反应。
这种结构对局部空间的不连续性敏感,特别适合于探测从周围邻域突出的位置,是视网膜、外侧膝状体核和初级视觉皮层的一般计算原理[12]。
中心环绕(center-surround)在模型中被实现为精细和粗糙尺度之间的差异:中心(center)是 c ∈ { 2 , 3 , 4 } c\in\{2,3,4\} c∈{2,3,4}尺度上的像素,环绕(surround)是 s = c + δ s=c+\delta s=c+δ尺度上的对应像素, δ ∈ { 3 , 4 } \delta \in\{3,4\} δ∈{3,4}。通过插值到更精细的比例尺和逐点减法,获得两个地图之间的横向比例尺差,这一操作用 “ ⊖ ” “\ominus” “⊖”表示。通过在中心区域和周围区域之间包含不同的大小比率(与以前使用的固定比率相反[5]),不仅对c,而且对 δ = s − c \delta=s-c δ=s−c使用多个尺度可以产生真正的多尺度特征提取。
2.1 Extraction of Early Visual Features
当r、g和b是输入图像的红色、绿色和蓝色通道时,强度图像
I
I
I为
I
=
r
+
g
+
b
3
I = \frac{r+g+b}{3}
I=3r+g+b
I
I
I用于创建高斯金字塔
I
(
σ
)
I(\sigma)
I(σ),其中
σ
∈
[
0..8
]
\sigma\in[0..8]
σ∈[0..8]是比例。
r、g和b通道通过 I I I进行规格化,以便将色调与强度分离。然而,由于在非常低的亮度下无法感知色调变化(因此不显著),仅在 I I I大于其最大值的 1 10 \frac{1}{10} 101的位置(其他位置产生零r、g和b)应用归一化。
创建了四个广泛调谐的颜色通道:
R
=
r
−
(
g
+
b
)
2
R = r-\frac{(g+b)}{2}
R=r−2(g+b) for red
G = g − ( r + b ) 2 G = g-\frac{(r+b)}{2} G=g−2(r+b) for green
B = b − ( r + g ) 2 B = b-\frac{(r+g)}{2} B=b−2(r+g) for blue
Y = ( r + g ) 2 − ∣ r − g ∣ 2 − b Y = \frac{(r+g)}{2}-\frac{|r-g|}{2}-b Y=2(r+g)−2∣r−g∣−b for yellow (负值设置为零)
四个高斯金字塔 R ( σ ) 、 G ( σ ) 、 B ( σ ) 和 Y ( σ ) R(\sigma)、G(\sigma)、B(\sigma)和Y(\sigma) R(σ)、G(σ)、B(σ)和Y(σ)是从这些颜色通道创建的。
“中心”精细尺度c和“环绕”粗略尺度s之间的中心环绕差( “ ⊖ ” “\ominus” “⊖”先前定义)产生特征图。
第一组特征图涉及到强度对比度,在哺乳动物中,这种对比度是由对明亮周围暗中心或暗周围亮中心敏感的神经元检测到的[12]。在这里,这两种类型的灵敏度在一组六个图
I
(
c
,
s
)
I(c,s)
I(c,s)中同时计算(使用校正),其中
c
∈
{
2
,
3
,
4
}
c\in\{2,3,4\}
c∈{2,3,4}和
s
=
c
+
δ
,
δ
∈
{
3
,
4
}
s=c+\delta,\delta\in\{3,4\}
s=c+δ,δ∈{3,4}:
I
(
c
,
s
)
=
∣
I
(
c
)
⊖
I
(
s
)
∣
(
1
)
I(c,s) = |I(c)\ominus I(s)| (1)
I(c,s)=∣I(c)⊖I(s)∣(1)
第二组图同样是为颜色通道构建的,在皮层中,颜色通道是用所谓的“颜色双对手”系统来表示的:在它们的感受野中心,神经元被一种颜色(如红色)激发,被另一种颜色(如绿色)抑制,而在周围则相反。人类初级视觉皮层中的红/绿、绿/红、蓝/黄和黄/蓝颜色对存在这样的空间和色彩对立面[13]。相应地,在模型中创建地图
R
G
(
c
,
s
)
RG(c,s)
RG(c,s),以同时考虑红色/绿色和绿色/红色双对映(2)和
B
Y
(
c
,
s
)
BY(c,s)
BY(c,s)用于蓝色/黄色和黄色/蓝色双对映(3):
R
G
(
c
,
s
)
=
∣
(
R
(
c
)
−
G
(
c
)
)
⊖
(
G
(
s
)
−
R
(
s
)
)
∣
(
2
)
RG(c,s) = |(R(c)-G(c))\ominus(G(s)-R(s))| (2)
RG(c,s)=∣(R(c)−G(c))⊖(G(s)−R(s))∣(2)
B
Y
(
c
,
s
)
=
∣
(
B
(
c
)
−
Y
(
c
)
)
⊖
(
Y
(
s
)
−
B
(
s
)
)
∣
(
3
)
BY(c,s) = |(B(c)-Y(c))\ominus(Y(s)-B(s))| (3)
BY(c,s)=∣(B(c)−Y(c))⊖(Y(s)−B(s))∣(3)
利用定向Gabor金字塔
O
(
σ
,
θ
)
O(\sigma,\theta)
O(σ,θ)从
I
I
I获得局部方向信息,其中
σ
∈
[
0..8
]
\sigma\in[0..8]
σ∈[0..8]表示比例,
θ
∈
{
0
∘
,
4
5
∘
,
9
0
∘
,
13
5
∘
}
\theta\in\{0^{\circ},45^{\circ},90^{\circ},135^{\circ}\}
θ∈{0∘,45∘,90∘,135∘}是首选方向[11]。(Gabor滤波器是余弦光栅和二维高斯包络的乘积,近似于初级视觉皮层中定向选择神经元的感受野灵敏度分布(脉冲响应)[12]。)定向特征图
O
(
c
,
s
,
θ
)
O(c,s,\theta)
O(c,s,θ)作为第三组,编码中心和周围尺度之间的局部定向对比度:
O
(
c
,
s
,
θ
)
=
∣
O
(
c
,
θ
)
⊖
O
(
s
,
θ
)
∣
(
4
)
O(c,s,\theta) = |O(c,\theta)\ominus O(s,\theta)| (4)
O(c,s,θ)=∣O(c,θ)⊖O(s,θ)∣(4)
总共计算了42个特征地图:6个用于强度,12个用于颜色,24个用于方向。
2.2 The Saliency Map
显著图的目的是用标量表示视野中每个位置的显著性或“显著性”,并根据显著性的空间分布来指导注意位置的选择。特征图的组合为显著图提供自底向上的输入,该显著图被建模为动态神经网络。
组合不同特征图的一个困难是,它们代表了一种先验的不可比较的模式,具有不同的动态范围和提取机制。此外,由于所有42个特征地图都被组合在一起,仅在少数地图中出现强烈的显著对象可能被噪声或在大量地图中出现的不显著对象掩盖。
在缺乏自上而下监督的情况下,我们提出了一个图规范化算子 N ( . ) N(.) N(.),它在全局上促进存在少量强活动峰值(显著位置)的图,同时在全局上抑制包含许多可比较峰值响应的图。 N ( . ) N(.) N(.)操作包括(图2):
- 将map中的值规格化为固定范围[0…M],以消除模态相关的振幅差异;
- 找到图的全局最大值M的位置并计算其所有其他局部最大值的平均值 m ˉ \bar m mˉ;
- 将图乘以
(
M
−
m
ˉ
)
2
(M-\bar m)^2
(M−mˉ)2。
只考虑局部活动最大值,以便 N ( . ) N(.) N(.)比较与图中有意义的“活动点”相关的响应,忽略同质区域。将整个图中的最大活动与平均总体活动进行比较,可以衡量最活跃位置与平均位置的差异。
当这个差异很大时,最活跃的位置就会突出,图就会得到有力的提升。当差异很小时,贴图不包含任何唯一的内容并被抑制。 N ( . ) N(.) N(.)设计背后的生物学动机是,它粗略地复制了皮层侧向抑制机制,其中相邻的相似特征通过特定的、解剖定义的连接相互抑制[15]。
在显著性地图的比例尺
(
σ
=
4
)
(\sigma=4)
(σ=4)上,特征图被组合成三个“显著性图”(conspicuity maps,),分别
I
ˉ
\bar I
Iˉ表示强度(5)、
C
ˉ
\bar C
Cˉ表示颜色(6)和
O
ˉ
\bar O
Oˉ表示方向(7)。它们是通过跨比例尺相加获得的,
“
⊕
”
“\oplus”
“⊕”,包括的操作有将每个图缩小到尺度4和逐点相加:
I
ˉ
=
⨁
c
=
2
4
⨁
s
=
c
+
3
c
=
4
N
(
I
(
c
,
s
)
)
(
5
)
\bar I = \bigoplus_{c=2}^{4}\bigoplus_{s=c+3}^{c=4}N(I(c,s)) (5)
Iˉ=c=2⨁4s=c+3⨁c=4N(I(c,s))(5)
C
ˉ
=
⨁
c
=
2
4
⨁
s
=
c
+
3
c
=
4
[
N
(
R
G
(
c
,
s
)
)
−
N
(
B
Y
(
c
,
s
)
)
]
(
6
)
\bar C = \bigoplus_{c=2}^{4}\bigoplus_{s=c+3}^{c=4}[N(RG(c,s))-N(BY(c,s))] (6)
Cˉ=c=2⨁4s=c+3⨁c=4[N(RG(c,s))−N(BY(c,s))](6)
对于方向,首先通过组合给定
θ
\theta
θ的六个特征图来创建四个中间图,然后将其组合为一个方向显著性图:
O
ˉ
=
∑
θ
∈
{
0
∘
,
4
5
∘
,
9
0
∘
,
13
5
∘
}
N
(
⨁
c
=
2
4
⨁
s
=
c
+
3
c
=
4
N
(
O
(
c
,
s
,
θ
)
)
)
(
7
)
\bar{O} = \sum _{\theta\in\{0^{\circ},45^{\circ},90^{\circ},135^{\circ}\}}N\left ( \bigoplus _{c=2}^{4}\bigoplus _{s=c+3}^{c=4} N(O(c,s,\theta))\right ) (7)
Oˉ=θ∈{0∘,45∘,90∘,135∘}∑N(c=2⨁4s=c+3⨁c=4N(O(c,s,θ)))(7)
创建三个独立通道
I
ˉ
,
C
ˉ
,
和
O
ˉ
\bar I,\bar C,和\bar{O}
Iˉ,Cˉ,和Oˉ以及它们的个体规范化的动机是假设相似的特征强烈地竞争显著性,而不同的模式独立地贡献显著性图。将这三个显著性图规范化并求和到显著性图的最终输入S中:
S
=
1
3
(
N
(
I
ˉ
)
+
N
(
C
ˉ
)
+
N
(
O
ˉ
)
)
(
8
)
S = \frac{1}{3}(N(\bar I) + N(\bar C) + N(\bar O)) (8)
S=31(N(Iˉ)+N(Cˉ)+N(Oˉ))(8)
在任何给定时间,显著图的最大值定义了最显著的图像位置,应将注意力(FOA)指向该位置。现在,我们可以简单地选择最活跃的位置作为定义模型下一步应该注意的点。
然而,在一个神经元合理的实现中,我们将显著性图(SM)建模为一个在尺度4上的二维的泄漏整合神经元(a 2D layer of leaky integrate-and-fire)。
这些模型神经元由一个单一的电容组成,该电容整合了突触输入的电荷、漏电电导和电压阈值。当达到这个阈值时,产生典型尖峰,电容电荷分流到零[14]。
SM在尺度4上被输入到一个生物学上可行的二维“winner-take-all”(WTA)神经网络中。其中,单位之间的突触相互作用确保只剩下最活跃的位置,而所有其他位置都被抑制。
SM中的神经元接受来自S的兴奋性输入,并且都是独立的。因此,在更显著位置的SM神经元的电位增加更快(这些神经元被用作纯整合器,不fire)。每一个SM神经元都会刺激相应的WTA神经元。所有WTA神经元也各自独立进化,直到其中一个(赢家)第一次达到阈值并激发。这将触发三个同时的机制(图3):
- FOA移到获胜者神经元的位置
- WTA的全局抑制被触发并完全抑制(重置)所有WTA神经元
- 在具有FOA的大小和新位置的区域中,局部抑制在SM中瞬时激活;这不仅通过允许下一个最显著的位置随后成为赢家而产生FOA的动态移动,而且还阻止FOA立即返回到先前关注的位置。
这种“抑制返回”(inhibition of return)在人类视觉心理物理学中得到了证明[16]。为了使模型稍微偏向于随后跳到空间上靠近当前关注位置的显著位置,在FOA的附近的SM中瞬时激活小的激励(“Koch和Ullman的邻近偏好(proximity preference)”规则[4])。
由于我们不模拟任何自上而下的注意成分,FOA是一个简单的圆盘,其半径固定为输入图像宽度或高度的六分之一。选择模拟神经元的时间常数、电导和触发阈值(详见[17]),使FOA在大约30-70ms(模拟时间)内从一个显著位置跳到下一个显著位置,并且如在心理物理上观察到的那样,一个注意区域被抑制大约500-900ms(图3)。事实证明,这些延迟的相对大小的差异足以确保对图像进行彻底扫描,并防止仅通过有限数量的位置进行循环。在我们的实现中,所有的参数都是固定的[17],并且系统对所研究的所有图像都证明了随时间的推移是稳定的。
2.3 Comparison With Spatial Frequency Content Models
Reinagel和Zador[18]最近使用了一种眼睛跟踪设备来分析人类在自由观看灰度图像时沿眼睛扫描路径产生的局部空间频率分布。他们发现注视位置的空间频率含量明显高于随机位置的平均值。尽管眼轨迹与意志控制下的注意轨迹不同[1],但视觉注意通常被认为是一种专注运动机制,强烈影响自由观看。因此,研究我们的模型是否能重现Reinagel和Zador是很有意思的。
我们构造了一个简单的空间频率内容度量(SFC):在给定的图像位置,从每个I(2)、R(2)、G(2)、B(2)和Y(2)图中提取16×16的图像块,并对这些块应用二维快速傅立叶变换(FFTs)。对于每个图像块,应用一个阈值来计算不可忽略的FFT系数的数目;该阈值对应于刚可感知光栅的FFT振幅(1%对比度)。SFC测度是五个对应的图像块中不可忽略系数的平均数。选择的图像块大小和比例使得SFC测量值对与我们的模型大致相同的频率和分辨率范围敏感;此外,我们的SFC测量值在RGB通道和强度(如模型)中计算。使用此度量,在尺度4处创建SFC图,并与显著性图进行比较(图4)。
3 RESULTS AND DISCUSSION
3.1 General Performance
略
3.2 Strengths and Limitations
我们提出了一个模型,其结构和组件模拟了灵长类动物早期视觉的特性。尽管该模型结构简单,具有前馈特征提取机制,但在复杂的自然场景下仍具有很强的性能。例如,它快速检测出各种形状(圆形、三角形、方形、矩形)、颜色(红色、蓝色、白色、橙色、黑色)和纹理(字母标记、箭头、条纹、圆圈)的显著交通标志,尽管它不是为此目的而设计的。如此强大的表现强化了这样一种观点,即一个独特的显著性图,接收早期视觉过程的输入,可以有效地引导灵长类动物自下而上的注意力[4]、[10]、[5]、[8]。从计算的角度来看,这种方法的主要优点在于大规模并行实现,不仅计算成本高的早期特征提取阶段,而且还包括注意力集中系统。与以前广泛基于松弛技术的模型相比[5],我们的体系结构可以很容易地允许在专用硬件上进行实时操作。
从这个模型可以期望的性能类型取决于一个因素:只有在至少一个特征图中明确表示出对象特征可以导致突出(pop-out),即,快速检测与分散注意力的对象的数量无关[7]。在不改变预注意特征提取阶段的情况下,我们的模型无法检测特征的连接。当我们的系统立即检测到一个不同于周围干扰源的目标,其独特的大小、强度、颜色或方向(我们已经实现了这些特性,因为它们在初级视觉皮层中有很好的特征)时,它将无法检测到未实现的特征类型的显著目标(例如。,T型接头或线路终端,对其是否存在特定的神经检测器仍存在争议)。为了简单起见,我们还没有在特征图中实现任何递归机制,因此,我们不能再现像轮廓补全和闭合这样的现象,这对于某些类型的人类突出来说非常重要[19]。此外,目前,我们的模型不包括任何大细胞运动通道,这是众所周知的在人类显著性中发挥了重要作用[5]。
一个关键的模型组件是规范化 N ( . ) N(.) N(.),它提供了在任何情况下计算显著性的通用机制。该模型所实现的显著性度量虽然通常与局部SFC相关,但更接近于人类显著性,因为它实现了显著位置之间的空间竞争。我们的 N ( . ) N(.) N(.)的前馈实现比先前提出的迭代方案[5]更快、更简单。在神经元方面,纹状体和纹状体外皮质细胞的非经典感受野中观察到类似于 N ( . ) N(.) N(.)的空间竞争效应[15]。
总之,我们提出了一个概念上简单的显著性驱动的焦点视觉注意的计算模型。指导其结构的生物洞察力在再现灵长类视觉系统的某些性能方面被证明是有效的。这种目标检测方法的效率关键取决于所实现的特征类型。因此,通过实现专用的特征图,本文提出的框架可以很容易地定制为任意任务。