itti模型显著性检测

基于显着性的快速场景分析视觉注意模型
Laurent Itti,Christof Koch和Ernst Niebur
摘要:提出了一个视觉注意系统,受早期灵长类视觉系统的行为和神经元结构的启发。 多尺度图像特征被组合成单个地形显着图。 然后动态神经网络按照显着性降低的顺序选择出席位置。 该系统通过以计算有效的方式快速选择要分析的显着位置来细化场景理解的复杂问题。
关键词 :视觉注意,信号分析,特征提取,目标检测,视觉搜索。
1 介绍
尽管可用于这些任务的神经元硬件的速度有限,但PRIMATES具有实时解释复杂场景的显着能力。 在进一步处理之前,中等和更高的视觉过程似乎选择了可用感觉信息的一个子集[1],最有可能降低场景分析的复杂性[2]。 这种选择似乎是以视野的空间限定区域(所谓的“关注焦点”)的形式实现的,其以快速,自下而上,显着驱动和独立于任务的方式扫描场景方式以及以较慢,自上而下,意志控制和任务依赖的方式[2]。关注的模型包括“动态路由”模型,其中来自视野的一个小区域的信息可以通过皮层视觉层次进展。 通过动态修改皮层连接或通过建立特定的时间活动模式,在自上而下(任务相关)和自下而上(场景相关)控制下选择出席区域[3],[2], [1]。这里使用的模型(图1)建立在Koch和Ullman [4]提出的第二种生物可信架构上,并以几种模型[5],[6]为基础。 它与所谓的“特征整合理论”有关,解释人类视觉搜索策略[7]。 视觉输入首先被分解成一组地形特征地图。 然后不同的空间位置在每个地图内竞争显着性,使得只有局部突出于其周围的位置才能持续。 所有功能地图都以纯粹的自下而上的方式进入主显示地图,在整个视觉场景中进行地形编码。 在灵长类动物中,这样的图被认为是位于后顶叶皮质[8]以及在丘脑的细胞核中的各种视觉图[9]。 该模型的显着图被赋予内部动力学,引起注意力转移。 这个模型因此代表了一个完整的帐户。

  1. List item

在这里插入图片描述
图1.模型的一般架构。

自下而上的显着性,并不需要任何自上而下的指导转移注意力。 这个框架提供了一个大规模并行的方法来快速选择一些有趣的图像位置,以便通过更复杂和耗时的对象识别过程进行分析。 在“引导式搜索”中扩展这种方法,来自更高皮质区域的反馈(例如关于目标的知识)被用于加权不同特征的重要性[10],使得只有具有高权重的那些才能达到更高处理水平。
2 模型
输入以静态彩色图像的形式提供,通常以640×480分辨率数字化。使用二进制高斯金字塔[11]创建了九个空间尺度,逐步对输入图像进行低通滤波和二次采样,得到从1:1(比例尺0)到1:256(比例尺8)的水平和垂直图像缩小因子。在八个八度。每个特征是通过一系列类似于视觉感受野的线性“中心环绕”操作来计算的(图1):典型的视觉神经元在视觉空间的一个小区域(中心)是最敏感的,而刺激呈现在与中心(环绕)同心的较 宽的,较弱的拮抗区域抑制神经元反应。 这种对局部空间不连续敏感的结构特别适合于检测从周围突出的位置,并且是视网膜, 外侧膝状核和初级视皮层的一般计算原理[12]。 中心环绕在模型中被实现为精细尺度和粗尺度之间的差异:中心是尺度为c{2,3,4}的像素,环绕是尺度s = c + d处的对应像素,其中d {3,4}。 两个地图之间的跨尺度差异(以下表示为“8”)是通过对更精细的比例和逐点相减进行插值而获得的。 通过在中心和周围区域之间包含不同的尺寸比例(与之前使用的固定比例相反,使用几个尺度)不仅对于c而且对于d = s-c也产生真正的多尺度特征提取。
2.1 早期视觉特征的提取
当r,g和b是输入图像的红色,绿色和蓝色通道时,获得强度图像I,I =(r + g + b)/ 3。I是用来创建一个高斯金字塔I(s),其中s∈[0…8]是尺度。 r,g和
b通道被I归一化,以便将色调从强度中分离出来。 然而,因为在非常低的亮度(因此不显着)下不能感知色调变化,所以归一化仅被应用于在整个图像上I大于其最大值的1/10的位置(其他位置产生零r,g ,和b)。 创建了四个广义调谐的颜色通道:对于红色,R = r - (g + b)/ 2,对于绿色,G = g-(r + b)/ 2,对于蓝色,B= b -(r + g)/ 2 ,Y =(r + g)/ 2 - | r - g | / 2 - b 为黄色(负值设为零)。 从这些颜色通道创建四个高斯金字塔R(s),G(s),B(s)和Y(s)。在“中心”精细刻度c和“环绕”粗糙刻度s之间的中心 - 环绕差异(之前定义的8)产生了功能地图。 第一组特征图与强度对比有关,在哺乳动物中,这种特征可以通过对明亮的周围的黑暗中心敏感的神经元或黑暗的周围明亮的中心来检测[12]。 在这里,同时计算(使用校正)两种类型的敏感性在一组六个映射I(c,s)中,其中c∈{2,3,4}和s = c + d, d {3,4 }:I(c,s)= | I(c)8 I(s)|。 (1) 第二套地图的颜色通道类似地构建,在皮层,用一个所谓的“双色对立”系统表示:在他们的感受野的中心,神经元被一种颜色激发(例如,红色)并被另一个(例如绿色)抑制,而在环绕中相反。这种空间和半色调存在于人类初级视觉皮层中的红/绿,绿/红,蓝/ 黄和黄/蓝色对[13]。 因此,在模型中创建地图R(j(c,s)以同时计算蓝/黄和黄/蓝的红/绿和绿/红双对数(2)和’B} /双重对立(3):
R(j(c,s)= |(R(c)-G(c))8(G(s)-R(s))| (2)
(b,s)= |(B(c)-Y(c))8(Y(s)-B(s))。 (3)
本地方向信息是从定向Gabor金字塔O(s,q)中获得的,其 中s∈[0…8]表示标度和qŒ{0o,45o,90o,135 o}是首选方向。

  1. List item

在这里插入图片描述

图2.归一化算子N
1)将地图中的值归一化到固定范围[0…M],以消除与模态相关的振幅差异;
2)找到地图的全局最大值M的位置,并计算所有其他局部最大值的平均值m; 和
3)全局乘以(M-mi )。
只考虑活动的局部最大值,使得N比较与地图中有意义的
“激活点”相关的响应并忽略均匀区域。 将整个地图中的最大活动与平均整体激活度进行比较,可以测出最活跃的地点与平均地点的差异。 当这个差异很大时,最活跃的位置突出了,并且地图被强烈地提升。 当差异很小时,地图不包含任何独特的东西,并被压制。 N设计背后的生物学动机是它粗略地复制了皮层横向抑制机制, 其中相邻的相似特征通过特定的,解剖学上定义的连接相互抑制[15]。特征地图被合并为三个“显着地图”,我
对于强度(5),C对于颜色(6),O对于方向(7),在显着图的比例(s = 4)处。 它们是通过跨尺度加法获得的,“≈”是由每个地图缩小到四个点和逐点加法组成的:
这是一个余弦光栅和二维高斯的乘积I c 4 N(I(c,s)(5)
包络,近似的接受场灵敏度轮廓(脉冲反应)的方向选择性神经元在初级视觉皮层 4c = 2 s =c3 . (6)
方位特征图O(c,s,q)将中心和周围尺度之间的局部方位对比作为一组进行编码: c = 2 s =c 3N(R(j(c,s)))N('B} /(c,s))
O(c,s,q)= | O(c,q)8 O(s,q)| 。
4)总共计算出42个特征图:强度6个,强度12个为了定位,首先创建四个中间地图给定q的六个特征图的组合,然后被组合成单个方向的显着性图:颜色和24为定位。
2.2显着性地图
显着图的目的是表示显着性 - 我创建三个独立渠道的动机,或“显着性” - 在视野中的每个位置上以标量的量,并基于显着性的空间分布来指导参与位置的选择。 特征映射的组合提供了自下而上的输入到显着图,被建模为动态神经网络。组合不同特征图的一个难点在于它们代表先验而不可比的模态, 具有不同的动态范围和提取机制。 而且,由于所有42个特征地图都是组合的,所以仅在少数地图中出现强烈的突出对象可能被噪声或大量地图中较不突出的对象所掩盖。在没有自上而下的监督下,我们提出了一个地图归一化算子N(它在全球推广地图,其中有少量的活动高峰(显着位置) 存在,同时在全球范围内抑制包含大量可比较的地图高峰回应。由(图2)组成:它们的个体归一化是这样的假设:相似的特征强烈地竞争显着性,而不同的形式独立地贡献显着性图。 三个显着性图被归一化并且被汇总到显着图的最终输入S中:在任何给定的时间,显着图(SM)的最大值定义了最显着的图像位置,注意力的焦点(FOA)应该指向哪个位置。 我们现在可以简单地选择最活跃的位置作为定义模型下一步出现的点。 然而,在一个神经元合理的实施中,我们将SM建模为一个二维的渗漏整合火焰神经元层。 这些模型神经元由一个单一的电容组成,它将由突触输入传递的电荷,泄漏电导和电压阈值整合在一起。 当门槛是
在这里插入图片描述

图3.具有自然图像的模型的操作示例。
并行特征提取产生三个用于颜色对比度(C),强度对比度(I)和方位对比度(O)的显着性图。 这些被组合以形成输入S到显着图(SM)。 最突出的地方是橙色的电话亭,在C中显得非常强烈; 它成为第一个出席的地点(92毫秒模拟时间)。 在返回禁止反馈抑制显着图中的这个位置之后,接下来选择下一个最显着的位置。到达,产生一个典型的尖峰,并且电容电荷被分流到零[14]。 SM 饲喂生物学上可信的二维“胜者通吃”(WTA)神经网络[4],[1]
规模s = 4,其中单元之间的突触相互作用确保只剩下最活跃的位置, 而所有其他位置被抑制。SM中的神经元接受来自S的兴奋性输入,并且都是独立的。 SM 神经元在更显着位置的潜能因此增加得更快(这些神经元被用作纯积分器并且不会发射)。 每个SM神经元激发其相应的WTA神经元。所有WTA神经元也彼此独立演变,直到一个(“获胜者”)首先达到阈值并发生火灾。 这触发了三个同时的机制(图3):
1)FOA被转移到赢家神经元的位置;
2)触发WTA的全局抑制并完全抑制(重置)所有WTA神经元;
3)在SM中,在FOA的大小和新位置的区域中局部抑制被瞬时激活; 这不仅产生了FOA的动态变化,允许下一个最显着的位置随后成为赢家,而且还防止了FOA立即返回到以前出席的位置。这种“抑制回报”已经在人类视觉心理物理学中得到证明[16]。 为了略微偏向模型以随后跳转到空间上接近当前位置的显着位置,在FOA 附近短暂地激发小的激励(Koch和Ullman的“接近偏好”规则[ 4])。
由于我们没有模拟任何自上而下的注意成分,因此FOA是一个简 单的磁盘,其半径固定为输入图像宽度或高度的较小值的六分之一。选择模拟神经元的时间常数,电导和激发阈值(详见[17]),以便FOA从大约30-70毫秒(模拟时间)从一个显着位置跳到下一个显着位置,如在心理学上观察到的那样,约有500-900毫秒(图3)的受关注区域被禁止。 这些延迟的相对大小的差异证明足以确保彻底扫描图像,并防止仅通过有限数量的位置循环。 所有参数在我们的实现中都是固定的[17],并且系统对于所研究的所有图像在时间上都是稳定的。
2.3与空间频率内容模型的比较
Reinagel和Zador [18]最近使用眼动追踪装置来分析沿着人眼产生的眼睛扫描路径的局部空间频率分布,同时自由观看灰度图像。 他们发现在固定位置的空间频率含量明显高于平均随机位置。 虽然眼动轨迹可以不同于意志控制下的注意轨迹[1],但视觉注意往往被认为是眼动前机制,强烈影响自由观看。 因此,调查我们的模型是否能够再现Reinagel和Zador的发现是有趣的。R(2),G(2),B(2)和(2)中提取出一个16×16的图像 块, Y(2)图和2D快速傅立叶变换(FFT)应用于贴片。 对于每个补丁, 应用阈值来计算不可忽略的FFT系数的数量; 该阈值对应于刚好可感知的光栅的FFT振幅(1%的对比度)。 SFC度量是五个相应补丁中不可忽略系数的数量的平均值。 选择贴片的尺寸和大小以使SFC测量对于与我们的模型大致相同的频率和分辨率范围敏感; 此外,我们的SFC指标也是在RGB通道以及强度模型中进行计算的。 使用这个度量,一个SFC图在4级创建,并与显着图进行比较(图4)。

(1) (2) (3)

图4.(a)彩色图像的例子 (b)相应的显着图输入。 (c)空间频率内容(SFC)地图。 (d)显着图的输入高于其最大值(黄色圆圈)的98% 以及SFC高于其最大值的98%(红色方块)的图像块的位置。 显着图对噪声非常稳健,而SFC则不是。
3结果与讨论
虽然显着图的概念已经在FOA模型中得到了广泛的应用[1,3,7], 但是关于其构造和动力学的细节通常很少。 在这里,我们研究了前馈特征提取阶段,地图组合策略以及显着图的时间属性如何对整个系统性能的贡献。
3.1一般表现
该模型广泛测试人造图像,以确保正常运作。 例如,几个形状相同但与背景对比不同的物体按照对比度降低的顺序进行处理。 该模型证明,对这种图像添加噪声非常稳健(图5),特别是如果噪声的性质(例如,其颜色)不直接与目标的主要特征冲突。
在这里插入图片描述

图5.噪声对检测性能的影响,以768¥512场景为例,其中一个目标(两个人)由于其独特的色彩对比度而显着。在发现目标之前的假检测的平均值
±SE被示出为50个噪声实例的噪声密度的函数。该系统对于不直接干扰目标(左:强度噪声和色彩目标)的主要特征的噪声非常稳健。当噪声具有与目标相似的特性时,会损害目标的显着性,系统首先会出现其他特征突出的对象(这里是粗略的强度变化)。通过使用图2所示类型的图像,该模型能够为许多弹出任务重现人类表现[7]。当目标与周围的牵引器阵列由于其独特的方向而不同
(如图2所示)),颜色,强度或大小,它始终是第一个出席的地点,无论分心的人数。 相反地,当目标与仅仅通过特征的联合(例如,它是红色垂直和绿色水平条的混合阵列中唯一的红色水平条) 的分心符不同时,寻找目标所需的搜索时间随着多少干扰。 这两个结果已经在人类中广泛观察到[7],并在3.2节中讨论。特征图(图3和[17])。 有很多这样的图像,很难客观地评估模型, 因为没有客观的参考可用于比较,观察者可能不同意哪个位置是最 显着的。 然而,在所研究的所有图像中,大多数出席的位置是感兴趣的对象,例如脸部,旗帜,人员,建筑物或车辆。模型预测与局部SFC的测量进行比较,类似于Reinagel和Zador[18]的实验,使用具有突出交通标志的自然场景(90幅图像),红色汽水罐(104幅图像)或车辆的紧急情况三角形符号(64图像)。我们还用真实的图像测试了模型,从自然的户外场景到艺术绘画, 与Reinagel和Zador的研究结果相似,证监会出席的地点显着高于平并使用N(。)进行标准化均证监会,由第一次就诊地点的2.5±0.05下降至1.6±0.05
在第八个出席的地点。 虽然这个结果并不一定表明人类的眼睛注视和模型的注意轨迹之间的相似性,但是这表明模型像人类一样被“信息性”图像位置所吸引,根据常见的假设,即具有更丰富的光谱内容的区域更具有信息性。 SFC图与大多数图像的显着图类似(例如, 图4.1)。 然而,对于照度或颜色的强烈的,扩展的变化(例如, 由于散斑噪声)的图像而言,两种图都大不相同:虽然这样的区域显示均匀高的SFC,但由于其均匀性而具有低显着性(图4.2和图4.3 )。 在这样的图像中,显着图通常与我们对显着性的主观感知更好地一致。 定量地说,对于这里研究的258幅图像,在参加地点的SFC显着低于最大SFC,其因数从首次就诊地点的0.90±0.02降低到0.55±0.02
0.05在第八个参加的地点:当模型参加
对于SFC高的地区,这些并不一定是SFC最高的地区。 因此,似乎显着性不仅仅是衡量当地的证监会。 这种实现特征空间竞争的模型比纯粹的本地证监会措施更能捕获主观显着性。
3.2 优点和局限性
我们提出了一个模型,其结构和组件模仿灵长类早期视觉的特性。尽管它具有简单的架构和前馈特征提取机制,但该模型具有强大的性能和复杂的自然场景。 例如,它很快检测到各种形状(圆形,三角形,方形,矩形),颜色(红色,蓝色,白色,橙色,黑色)和纹理(字母标记,箭头,条纹,圆形)的突出交通标志,尽管它并不是为此目的而设计的。 如此强大的表现强化了这样的观点,即从早期视觉过程接收输入的独特显着图可以有效地引导灵长类动物自下而上的注意力[4],[10],[5],[8]。 从计算角度来看,这种方法的主要优势在于大规模并行实现,不仅是计算上昂贵的早期特征提取阶段,而且还有注意力聚焦系统。 我们的体系结构比以前的广泛应用放松技术的模型[5]更容易实现在专用硬件上的实时操作。
从这个模型可以预期的性能类型
关键取决于一个因素:只有在至少一个特征地图中明确表示的对象特 征才能导致弹出,也就是说,独立于分散对象的数量的快速检测[7]。在不修改预注视特征提取阶段的情况下,我们的模型不能检测到特征 的连接。 虽然我们的系统通过其独特的尺寸,强度,颜色或方向
(由于在初级视觉皮层中已经很好表征的特性而已经实现的特性)立即检测到与周围的牵引器不同的目标,所以它将在检测目标突出未实现的特征类型(例如,T接头或线路终结器,特定神经探测器的存在仍然存在争议)。 为了简单起见,我们还没有在特征映射中实现任何反复的机制,因此不能再现轮廓完成和闭合等对于某些类型的人体弹出非常重要的现象[19]。 另外,目前我们的模型并不包含任何已知在人类显着性中起重要作用的大细胞运动通道[5]。一个关键的模型组件是归一化N(。),其中提供了在任何情况下计算显着性的一般机制。 由模型实现的显着性度量,尽管通常与当地的证监会相关,但更接近于人类的显着性,因为它实现了显着位置之间的空间竞争。 N的前馈实现比以前提出的迭代方案更快,更简单[5]。 神经元方面,在非经典模型中观察到类似于N的空间竞争效应,cal接受领域的细胞在striate和extrastriate皮层[15]。
总之,我们已经提出了一个概念上简单的计算模型,以显着驱动焦点视觉注意力。 指导其体系结构的生物洞察证明在再现灵长类视觉系统的一些性能方面是有效的。 这种目标检测方法的效率主要取决于实现的特征类型。 这里介绍的框架可以很容易地通过执行专门的功能图来适应任意的任务。
致谢
我们感谢Werner Ritter和戴姆勒 - 奔驰的交通标志图像和Pietro Perona 以及两位评论家的出色建议。这项研究得到了美国国家科学基金会,加州理工学院神经形态工程中心和美国海军研究办公室的支持。

参考文献
[1] JK Tsotsos,SM Culhane,WYK Wai,YH Lai,N. Davis和F. Nuflo,
“通过选择性调整建模视觉注意力”,人工智能, 78,没有。 1- 2,第507-545页,1995年10月。
[2]E. Niebur 和 C. Koch , “Computational Architectures for Attention”,R. Parasuraman,编者,The Attentive Brain,第163-186页。 麻省剑桥:麻省理工学院出版社,1998年。
[3]BA Olshausen,CH Anderson和DC Van Essen,“A Neurobiological Model of Visual Attention and Invariant Pattern Recognition Based on Dynamic Routing of Information,”J.Neuroscience,
[4]vol。 13,没有。 11,第4700-4719页,1993年11月。
[5]C. Koch和S. Ullman,“选择性视觉注意力的转变:迈向潜在的神经电路”,人类神经生物学,第一卷。 4,pp.219-227,1985。
[6]R.Milanese,S.Gil和T.Pun,“用于动态和静态场景分析的注意机制”,Optical Eng。,vol。 34,没有。 8,第2,428-2,434页,
1995年8月。
[7]S. Baluja和DA Pomerleau,“期望为基础的机器人视觉监视和控制的选择性注意,”机器人和自主系统,第一卷。 22,没有。 3-4, 第329-344页,1997年12月。
[8]AM Treisman和G. Gelade,“注意力的特征 - 整合理论”,认知心理学,第一卷。 12,没有。 1,pp。97-136,1980年1月。
[9]JP Gottlieb,M. Kusunoki和ME Goldberg,“在猴子顶叶皮层中视觉显性的表现”,Nature, 391,没有。 6,666,第481-484页,1998年1 月。
[10]DL Robinson 和 SE Peterson , “Pulvinar and Visual Salience,”Trends in Neurosciences,vol。 15,没有。 4卷, 127-132页,1992年4月。
[11]JM Wolfe,“引导搜索2.0:视觉搜索的修订模型”,Psychonomic
Bull。 Rev.,vol。 1,第202-238页,1994。
[12]H. Greenspan,S. Belongie,R. Goodman,P. Perona,S. Rakshit,and
CH安德森,“过度完整可操纵的金字塔滤波器和旋转不变性”,Proc。IEEE Computer Vision and Pattern Recognition,pp.222-228,
Seattle,华盛顿,1994年6月。
[13]AG Leventhal,视觉功能的神经基础:视觉和视觉功能障碍,第一卷。 4.博卡拉顿,佛罗里达州:CRC出版社,1991年。
[14]S. Engel,X. Zhang和B. Wandell,“使用功能磁共振成像测量的人视觉皮层中的颜色调谐”,Nature, 388,没有。 6,637,pp.68-
71,1997年7月。
[15]C.科赫,计算的生物物理学:信息处理单个神经元。 纽约:牛津大学 新闻,1998年。
[16]MW Cannon和SC Fullenkamp,“感知对比中抑制性横向相互作用的模型”,Vision Res。,vol。 36,没有。 8,pp.1115-1125,1996年4月。
[17]MI Posner和Y. Cohen,“视觉定位的组件”
H. Bouma和DG Bouwhuis编辑的“注意力和表现”第一卷。 10,第531-556页。 希尔德代尔,新泽西州:埃尔鲍姆,1984年。
[18]模型的C ++实现以及关于自然和合成图像的注意力预测的众多例子可以从中找到http://www.klab.caltech.edu/~itti/attention/。
[19]P. Reinagel和AM Zador,“注视对自然景观统计的影响”,神经信息与编码研讨会,1997年3月16 - 20日,犹他州雪鸟。
[20]I. Kovacs和B. Julesz,“封闭的曲线比不完全的曲线更多:图形 - 地面分割中封闭的影响”,Proc。 国家科学院,美国,第一卷。90,没有。 1993年8月16日,第7,495- 7,497页。

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值