论文阅读笔记--A Model of Saliency-based Visual Attention for Rapid Scene Analysis-CSDN博客

解读这篇论文的优秀博客:
1.阅读图像显著性检测论文一：A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
2.论文笔记：A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

文章完整信息：
标题：A Model of Saliency-Based Visual Attention
for Rapid Scene Analysis
作者: Laurent Itti, Christof Koch, and Ernst Niebur
期刊名称：IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE

出版年: 1998
分类：2D classic saliency model
全文：PDF
代码：Code (GBVS的项目，但是有Itti的代码)

A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

Abstract
1 INTRODUCTION
2 MODEL
3 RESULTS AND DISCUSSION
- 3.1 General Performance
- 3.2 Strengths and Limitations

Abstract

一个视觉注意系统，灵感来源于早期灵长类视觉系统的行为和神经元结构。多尺度图像特征组合成一张地形显著图。然后，动态神经网络按照显著性降低的顺序选择显著位置。该系统通过以计算效率高的方式快速选择要详细分析的显著位置来解决复杂的场景理解问题。

1 INTRODUCTION

灵长类动物在实时解读复杂场景方面有着非凡的能力，尽管用于此类任务的神经元硬件速度有限。中级和高级视觉处理似乎在进一步处理之前选择可用感官信息的子集[1]，最有可能降低场景分析的复杂性[2]。

这种选择似乎是以视野的空间限定区域，即所谓的“注意力焦点”(FOA)的形式实现的，该区域以快速、自下而上（bottom-up）、显著性驱动和任务无关的方式扫描场景，以较慢、自上而下（top-down）、意志控制和任务相关的方式扫描场景[2]。

根据博客阅读图像显著性检测论文一：A Model of Saliency-Based Visual Attention for Rapid Scene Analysis的解读：

举个例子，有十个陌生人朝你走过来，从左到右第八个人穿的黑色衣服，其他九个人穿的白色衣服，除了衣服颜色不一样，其他一模一样。不带任何主观目的地看，你会首先注意到谁？一般来说我们会注意到穿黑色衣服的那个人，为什么呢？因为他和其他九个人衣服颜色不一样，即他在这十个人里面是显著的，人类会首先注意到显著的东西。

bottom-up method: 在“十个人”的例子，如果你不带任何目的的看这十个人，那你首先注意到的一般会是黑色衣服的那个人，这就是bottom-up的方式，我对这里bottom-up的理解是bottom指的是场景，up指的是大脑，即场景中什么东西最特别，那我的大脑就先注意到什么东西。bottom-up的前提是你不带任何目的的看

top-down method：那假如说现在我接到了一个任务，告诉我说事实上这十个人里面，最左边的那个是一位特工，其他9个人都是他的替身，用来掩人耳目的而已，而我要做的事情是和真正的特工接头，比如说走到那个特工面前然后对念两句唐诗就完成了接头。那么当这十个人朝你走过来的时候，你会首先注意到哪个人？可以类比你去机场或者车站接朋友的时候，在人群中我们一定会先注意到朋友在哪儿，而不会是其他人在哪儿。这就是top-down的方式，即我们大脑中已经有了一个目的或者说任务要找谁，然后当场景出现的时候自然就会基于这个任务去选择首先注意到谁。
————————————————
版权声明：本文为CSDN博主「熊彬程的博客」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/xbcreal/article/details/53433035

注意模型包括“动态路径”模型，在该模型中，只有来自视野的一小部分区域的信息可以通过皮层视觉层次结构进行处理。

在自上而下（任务相关）和自下而上（场景相关）的控制下，通过动态改变皮层连接或通过建立特定的时间活动模式来选择注意区域[3]、[2]、[1].

这里使用的模型（图1）建立在第二个生物可移植的架构之上，由Koch和Ullman提出[4]，并基于几个模型[5]，[6]。
在这里插入图片描述
它与所谓的“特征整合理论”有关，解释了人类的视觉搜索策略[7]。

视觉输入首先分解为一组地形特征图。然后，不同的空间位置在每个图中争夺显著性，这样，只有在局部相对其周围突出的位置才能持续存在。所有的特征图都以一种纯粹的自下而上的方式输入到一个主“显著性图”中，主“显著性图”通过地形编码来表示整个视觉场景的局部显著性。在灵长类动物中，这种图被认为位于后顶叶皮质[8]以及丘脑枕核的各种视觉图[9]。该模型的显著图被赋予了产生注意转移的内在动力。因此，这个模型代表了自下而上的显著性，不需要任何自上而下的指导来转移注意力。

该框架为快速选择少量感兴趣的图像位置提供了一种大规模并行的方法，以便分析更复杂和耗时的目标识别过程。在“引导搜索”中扩展这种方法，使用来自更高皮质区域（例如，关于待发现目标的知识）的反馈来加权不同特征的重要性[10]，这样只有那些具有高权重的特征才能达到更高的处理水平。

2 MODEL

输入以静态彩色图像的形式提供，通常以 $640\times 480$ 分辨率数字化。使用并矢高斯金字塔（dyadic Gaussian pyrams）[11]创建了9个空间尺度，该金字塔渐进地对输入图像进行低通滤波和下采样，产生在8个八度(octaves)中从1:1（标度0）到1:256（标度8）的水平和垂直图像压缩因子。

根据博客SIFT解析（一）建立高斯金字塔的解释，
高斯金字塔金字塔总要有个变“尖”的过程，真正的高斯金字塔要有个平滑以及下采样的过程，因此整个图像平滑以及下采样再平滑，构成的所有图像集合才构成了图像的高斯金字塔。
octaves: 八度，八度就是在特定尺寸(长宽)下，经不同高斯核模糊的图像的集合。八度的集合是高斯金字塔。
————————————————
版权声明：本文为CSDN博主「honpey」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/honpey/article/details/8639617

在这里插入图片描述
每一个特征都是通过一组类似于视觉感受野的线性“中心环绕（center-surround）”操作来计算的（图1）：典型的视觉神经元在视觉空间的一个小区域（中心）最敏感，而刺激呈现在一个更广的区域，与中心（周围）同心的弱拮抗区抑制神经元反应。

这种结构对局部空间的不连续性敏感，特别适合于探测从周围邻域突出的位置，是视网膜、外侧膝状体核和初级视觉皮层的一般计算原理[12]。

中心环绕（center-surround）在模型中被实现为精细和粗糙尺度之间的差异：中心(center)是 $c\in\{2，3，4\}$ 尺度上的像素，环绕(surround)是 $s=c+\delta$ 尺度上的对应像素， $\delta \in\{3，4\}$ 。通过插值到更精细的比例尺和逐点减法，获得两个地图之间的横向比例尺差，这一操作用 $“\ominus”$ 表示。通过在中心区域和周围区域之间包含不同的大小比率（与以前使用的固定比率相反[5]），不仅对c，而且对 $\delta=s-c$ 使用多个尺度可以产生真正的多尺度特征提取。