COMPUTATIONAL MODELLING OF VISUAL ATTENTION

最新推荐文章于 2022-02-27 13:46:34 发布

NODIECANFLY

最新推荐文章于 2022-02-27 13:46:34 发布

阅读量1k

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/NODIECANFLY/article/details/83902720

版权

深度学习专栏收录该内容

14 篇文章 3 订阅

订阅专栏

Itti L, Koch C. Computational modelling of visual attention.[J]. Nature Reviews Neuroscience, 2001, 2(3):194-203.

注意力模型

最近关于焦点视觉注意力计算模型的工作出现了五个重要趋势，强调了自下而上，基于图像的注意力部署控制。首先，刺激的感知显着性关键取决于周围环境（可能指图片中某一部分内容的视觉显著性是和周围背景有关的，怎么区分背景和显著性区域）。其次，一个独特的“显着性图”在地形上编码了视觉场景中的刺激显着性，已被证明是一种有效且可信的自下而上的控制策略（不懂）。第三，抑制返回，即防止当前参加的位置再次被关注的过程，是注意力部署的关键因素。第四，注意力和眼球运动紧密相互作用，对用于控制注意力的坐标系提出计算挑战。最后，场景理解和对象识别强烈地限制了参加场所的选择。来自这五个关键领域的见解为计算和神经生物学理解视觉注意提供了框架。

选择性视觉注意最重要的功能是将我们的视线迅速引向视觉环境中的感兴趣对象。这种在杂乱的视觉场景中快速定向到显着物体的能力具有进化意义，因为它允许有机体在视觉世界中快速检测可能的猎物，配偶或捕食者。最近出现了一个用于注意力部署的双组件框架，尽管这个想法可以追溯到美国心理学之父William James1.该框架表明，受试者使用自下而上的基于图像的显着性线索和自上而下的任务相关线索有选择地将注意力引导到场景中的对象。在给定的环境中，一些刺激本质上是显着的或突出的。例如，在阴暗状态下的黑色燕尾服中的红色晚礼服，或者静态场景中的闪烁光，自动且不由自主地引起注意。显着性与特定任务的性质无关，操作非常迅速，主要以自下而上的方式驱动，尽管它可能受到上下文，图形 - 地面效应的影响。如果刺激足够突出，它将从视觉场景中弹出。这表明显着性是在整个视野中以预先注意的方式计算的，很可能是在分层的中心 - 周围机制方面。这种基于显着性的关注形式的速度大约为每个项目25到50毫秒。第二种形式的注意力是一种更有意识和更强大的注意力，它具有可变选择标准，具体取决于手头的任务（例如，“寻找红色，水平目标”）。这种自上而下注意力的表达最有可能来自更高的区域，包括额叶，它们连接回视觉皮层和早期视觉区域（第二种形式不是我们主要关注的重点，我们主要关注第一种无意识情况下的视觉关注）。因此，虽然视觉世界中的某些特征自动吸引注意力并且被视为“视觉上显着”，但是将注意力引向其他位置或物体需要自愿的“努力”。两种机制都可以并行运行。注意力实现了信息处理瓶颈，只允许一小部分传入的感官信息达到短期记忆和视觉意识。因此，不是试图并行地完全处理大量传感输入（估计在视神经上估计为每秒10^7-108位），已经发展了一种串行策略，即使计算能力有限，也能实现接近实时的性能。注意力使我们能够将理解视觉场景的问题分解为快速的一系列计算要求不高的局部视觉分析问题。除了这些定向和场景分析功能外，注意力的特征还在于对视觉属性和所需或选定目标位置的神经活动的反馈调制。这种反馈被认为是将对象的不同视觉属性（例如颜色和形式）绑定到单一感知中所必需的.通过这种方式，注意力不仅用于选择感兴趣的位置，而且还增强该位置处的对象的皮质表示。因此，焦点视觉注意力被比作“舞台灯光”，在他们占据中心舞台时连续照亮不同的玩家。最后，注意力涉及触发行为，因此与识别，计划和运动控制密切相关。

开发描述在给定视觉场景中如何部署注意力的计算模型一直是计算神经科学的重要挑战。这些架构在人工视觉中用于监视，自动目标检测，导航辅助和机器人控制等任务的潜在应用提供了额外的动力。在这里，我们专注于基于显着性的焦点自下而上注意力的生物学合理的计算建模。关于自上而下的意志成分的神经实例化知之甚少。由于这方面的注意力尚未得到如此详细的模拟，因此这不是我们的主要关注点。焦点视觉注意力的控制涉及复杂的脑区网络（如图）

在这里插入图片描述
视觉信息通过外侧膝状核（未示出）进入初级视觉皮层，尽管也存在较小的通路，例如上丘（SC）。从那里，视觉信息沿着两个平行的分层流进行。沿着“背部流”（包括后顶叶皮层; PPC）的皮层区域主要关注空间定位并将注意力和注视引向场景中的感兴趣对象。因此认为注意力部署的控制主要发生在背部流中。沿着“腹侧流”（包括颞下皮质; IT）的皮层区域主要涉及视觉刺激的识别和识别。虽然可能没有直接关注对注意力的控制，但这些腹侧流域确实已被证明可以接受注意力反馈调节，并且参与有人看见的位置和物体的表示（即，通过注意力瓶颈）。此外，一些高功能区域被认为有助于注意力指导，因为这些区域的病变可能导致“忽视”的情况，患者似乎不知道其视觉环境的一部分（参见REF.111的概述）涉及的地区）。从计算的角度来看，背侧和腹侧的流必须相互作用，因为场景理解涉及识别和注意力的空间部署。已经广泛研究这种相互作用的一个区域是前额皮质（PFC）。

在第一个近似中，选择下一个参加的位置主要由视觉处理的DORSAL STREAM控制，尽管VENTRAL STREAM中的物体识别可以通过自上而下的控制偏向下一个注意力转移。Koch和Ullman19在1985年提出了第一个用于控制视觉注意力的明确，神经可信的计算体系结构（图1）（对于早期相关的视觉和眼球运动模型，参见Didday和Arbib20）。Koch和Ullman的模型以“显着性图 ”为中心，即一个明确的二维地形图，在视觉场景的每个位置编码刺激显着性或显着性。显着图从早期视觉处理接收输入，并提供有效的控制策略
其中关注焦点只是按照显着性降低的顺序扫描显着性图。遵循这个基本架构，我们现在说明任何自下而上注意模型的五个基本组成部分。这些是整个视觉场景中早期视觉特征的预先计算，它们的集成产生单个注意力控制命令，注意力扫描路径的产生，COVERT和OVERT注意力部署（即眼球运动）之间的相互作用以及注意力与场景理解之间的相互作用。

在这里插入图片描述
用于控制自下而上注意力的典型模型的流程图。该图基于Koch和Ullman的假设，即集中式二维显着图可以在自下而上线索的基础上为注意力的部署提供有效的控制策略。输入图像通过几个预先注意的特征检测机制（对颜色，强度等敏感）分解，这些机制在整个视觉场景中并行操作。然后，特征图中的神经元编码每个特征通道中的空间对比度。此外，每个特征图中的神经元在空间上通过远距离连接来竞争显着性，所述远距离连接远远超出每个神经元的经典感受野的空间范围（这里针对一个通道示出;其他相似）。在空间竞争后，将特征图组合成独特的显着图，其在地形上编码显着性，而不管刺激出现显着的特征通道。通过赢家通吃网络（在任何给定时间检测到最高显着点）与抑制返回（从抑制图中抑制最后一次出勤位置）之间的相互作用，依次扫描显着性图，以便注意力可以集中在下一个最显着的位置）。自上而下的注意力偏差和训练可以调节这种自下而上模型的大多数阶段（红色阴影和箭头）。

Pre-attentive computation of visual features

任何自下而上注意力模型中的第一个处理阶段是早期视觉特征的计算 。在生物视觉中，视觉特征在视网膜，上丘，外侧膝状核和早期视觉皮层区域计算。最早阶段的神经元被调整为简单的视觉属性，例如强度对比度，颜色OPPONENCY，方向，运动方向和速度，或几个空间尺度的立体视差。NEURONAL TUNING越来越专注于从低级到高级视觉区域的进展，因此更高级别的视觉区域包括仅响应角落或交叉点的神经元22，来自阴影的形状23,24或特定现实世界的视图对象。早期的视觉特征是在整个视野中以大规模并行方式预先计算出来的（但是，请注意，我们并不暗示这种计算纯粹是前馈的，因为物体识别和注意可以影响它）。实际上，即使动物远离记录部位的感受野，神经元也会在这些早期区域中剧烈射击。此外，一些心理物理研究以及内省表明，我们不会对注意力集中的世界视而不见。因此，我们可以对我们没有注意的对象做出简单的判断，尽管这些判断是有限的，并且不如在有注意力的情况下做出的准确。因此，尽管注意力似乎并不是早期视力所必需的，但最近很明显，注意力可以以自上而下的方式，在空间定义和非空间特征中以自上而下的方式强烈调节早期视觉处理。具体方式37-39.这种注意力的调节作用被描述为增强增益30，偏向40,41或强化33竞争，或增强空间分辨率34，或作为调制背景活动42，有效刺激强度43或噪声44。这种注意力可以以相当于增加刺激强度的方式调节早期视觉处理，这在计算上是一个重要的发现，它直接支持作为舞台灯的关注隐喻。从计算角度来看，特别感兴趣的是Lee等人最近的一项研究，该研究测量了三个简单的模式辨别任务（对比度，方向和空间频率辨别）和两个空间掩蔽任务（总共32个阈值）的心理物理阈值。当注意力完全可用于感兴趣的任务时，或者当它不太可用时，使用双任务范例来测量阈值，因为它是由同时注意力要求的任务在其他地方进行的。在阈值中观察到的注意调制的混合模式（通过注意力在取向辨别方面提高了三倍，但对比度鉴别仅提高了20％）可以通过计算模型定量地计算。该模型预测，注意力激活了在一个皮质HYPERCOLUMN中调整到不同方向和空间频率的神经元之间的赢家竞争，这一提议最近获得了进一步的实验支持。由于反馈调制会影响自下而上功能的计算，因此自下而上注意力模型需要考虑到这一点。后面将讨论其中注意力增强空间分辨率47的混合自下而上和自上而下模型的示例。

计算模型可能包括也可能不包括有关早期视觉特征提取的明确细节。不限于可以合理猜测特征检测器响应的图像的模型。对任何视觉刺激都有最广泛适用性的模型，包括自然场景。早期视觉过程的计算机实现通常是通过模仿生物特性来激发的。例如，可以通过用DIFFERENCE-OF-GAUSSIANS（墨西哥帽）滤波器对输入图像的亮度通道进行卷积来计算调谐到强度中心 - 环绕对比度的神经元的响应。类似地，方向选择性神经元的反应通常通过GABOR WAVELETS的卷积获得，其类似于生物学脉冲响应函数。另一个有趣的方法包括实现对观察者访问的位置处存在的那些特征最有效的检测器，同时自由观看图像。例如，Zetzsche等人[50,52]展示了使用眼球跟踪设备如何优先固定具有多个叠加方向（例如角落）的区域，以及专门检测这些区域的衍生非线性算子。

无论用于早期特征检测的方法如何，从实验和建模研究中都出现了几个基本的计算原理。首先，不同的特征对感知显着性有不同的强度，这种相对特征加权可以通过自上而下的调制和训练来根据任务的需求进行影响。。其次，在给定的视觉位置，几乎没有证据表明不同视觉模态之间存在强烈的相互作用，例如颜色和方向。从计算的角度来看，这并不太令人惊讶，因为否则人们会期望这些相互作用也受到训练和自上而下调制的影响，这将导致学习有效地检测联合目标的能力，这是我们所缺乏的。然而，在给定的宽特征维度内，对于对该特征的不同属性敏感的滤波器之间的强烈局部相互作用（例如，在宽方向特征内的不同方向之间）已经在生理学60和心理物理学中被精确地表征。不同空间尺度内的特征内竞争存在的证据较少45。

最后也是最重要的是，引导自下而上注意力的重要因素是特征对比而不是局部绝对特征强度 （这里指出太特征之间的对比引起注意力的关注，注重比较而不是绝对的计算）。实际上，不仅大多数早期视觉神经元被调谐到某种类型的局部空间对比（例如中心环绕或定向边缘），而且神经元反应也被上下文强烈调制，其方式远远超出了经典感受野范围（cRF）。在第一近似中，非经典环绕调制的计算结果是双重的。首先，当刺激被限制在cRF并且周围视觉空间为空或包含非优选刺激时，当神经元以其优选刺激激发但刺激超出神经元的cRF时，观察到广泛的抑制效应。其次，当刺激延伸形成轮廓时，V1中的远程兴奋性连接似乎增强了方向选择性神经元的反应。这些相互作用被认为在感知分组中至关重要。最终的结果是，当猴子是自由观看的自然场景时，早期皮层区域的活动惊人地稀疏，而孤立地呈现的小实验室刺激可以引起强烈的反应。因此，早期视觉特征的计算不仅仅局限于局部操作，而是局限于视觉神经元的cRF，因为局部响应主要取决于长程背景影响。为了用计算机模型明确地证明这一想法，Itti等人71比较了纯粹的局部空间频率“丰富度”（通过计算具有高于某个阈值的幅度的局部傅立叶分量来测量），其显着性度量包括广泛的非经典环绕抑制。他们设计的图像具有均匀丰富的空间频率内容（使用颜色散斑噪声），但其中包含感知上显着的目标。虽然目标在空间频率内容方面与其环绕无差别，但是通过包括情境竞争的机制正确地检测到了目标。

在未来的建模工作中，不应忽视在整个视觉场景中提取早期视觉特征的预注意机制。实际上，最近很清楚的是早期视觉远不是一个被动和高度原型化的图像处理前端that可以通过线性滤波操作进行精确建模。在感知上，如果不了解刺激呈现的背景，就不能确定给定的刺激是否显着。因此，在计算上，还必须考虑跨越远程空间位置的非线性相互作用，其介导神经元响应的上下文调制。

Saliency显著性

我们已经看到视觉处理的早期阶段如何通过具有上下文调制效果的特征选择性过滤过程的集合来分解输入的视觉输入。接下来出现的问题是如何基于使用多个表示对进入的感觉信号进行编码的多个神经网络来控制单个注意力焦点。为了解决这个问题，大多数自下而上关注的模型都遵循Koch和Ullman19，并假设各种特征映射都会进入独特的“显着性”或“主要”地图。显着性图是一个标量的二维地图，其活动在地形上代表视觉显着性，而不考虑使该位置显着的特征维度。也就是说，显着图中的活动位置编码这个位置是显着的事实，无论它是对应于绿色物体的场中的红色物体，还是对应于向右移动而另一些向左移动的刺激。在这种标量地形表示的基础上，将注意力集中在最显着位置上的注意力被减少，以引起对显着性图中最高活动轨迹的注意。

在计算上，专用地图中显着性的显式表示强化了在预注意特征检测期间应该执行一定量空间选择的想法。否则，从视网膜输入到许多特征图的分歧不能跟随到显着图的收敛，而不会在显着图中表示复杂，混乱且难以解释为原始图像。在这种分歧，选择和收敛过程的基础上，如果位置在一个或多个空间尺度上赢得一个或多个特征维度的空间竞争，则定义为显着。然后，显着性映射编码与任何特定特征维度无关的显着性的显着度量，从而提供有效的控制策略以将注意力集中在显着位置而不考虑使这些位置显着的详细特征响应。

毫不奇怪，自下而上控制注意力的许多成功模型是围绕显着性图 建立的。那么，模型的不同之处在于用于修剪传入的感官输入并提取显着性的策略。在一个主要旨在解释视觉搜索实验的有影响力的模型中，Wolfe54假设通过各种特征图的空间定义和特征相关的加权，可以自上而下地执行给定搜索任务的相关特征的选择。然后，基于自下而上特征对比度和自上而下特征权重，在该模型中计算显着性作为目标将在给定位置处出现的可能性。这种观点最近得到了前面提到的关于自上而下注意调制的许多研究的实验支持。

Tsotsos及其同事72使用前馈自下而上特征提取层次结构和这些特征提取机制的反馈选择性调整的组合来实现注意选择。在该模型中，基于前馈激活以及可能针对某些位置或特征的附加自上而下偏置，在处理层级的顶层（等效显着图）中选择关注目标。然后通过激活在自下而上处理金字塔中嵌入的级联赢家通吃网络，将该位置传播回特征提取层次结构。因此，在每个处理级别上细化用于显着性的空间竞争，因为修剪了对获胜位置没有贡献的前馈路径（导致围绕所选目标的“抑制光束”的反馈传播）。