阅读图像显著性检测论文一：A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

最新推荐文章于 2024-05-14 22:04:28 发布

熊彬程的博客

最新推荐文章于 2024-05-14 22:04:28 发布

阅读量6.6k

点赞数 13

分类专栏：图像显著性检测文章标签：显著性检测 saliency itti模型

本文链接：https://blog.csdn.net/xbcreal/article/details/53433035

版权

本文深入解析1998年由Itti等人提出的显著性检测模型，该模型是显著性检测领域的开山之作，具有7000+次引用。模型基于早期灵长类动物的视觉注意力机制，分为bottom-up和top-down两部分，通过特征提取生成显著性图，并通过模拟动态神经元选择注意区域。此外，文章还介绍了显著性的概念和人类视觉系统的关注焦点选择。

摘要由CSDN通过智能技术生成

本博客为博主原创，转载请注明地址：http://blog.csdn.net/xbcReal/article/details/53433035

最近在看显著性检测的论文，写这个博客记录自己的一些理解。至于为什么把这篇文章放在第一位呢？原因很简单，因为这篇文章就是显著性检测的开山之作，1998年被Itti等人发表出来，现在引用次数7000+，其重要性不言而喻。下面进入正题，主要介绍论文的核心部分，即这个模型是怎么样的，以及具体的细节，比如feature map和saliency map是如何产生的。同时，为了让全文行文流畅，不至于因为仅有一个模型的介绍而显得过于晦涩，所以还会摘取论文中一些能够便于让读者快速了解整个显著性检测领域的基本知识，比如bottom-up(BU)模型，以及top-down(TD)模型，使大家读完这篇文章除了对这篇文章提出的模型有一个了解以外还能对整篇文章有一个大致的了解，笔者会尽量写自己的理解而不是单纯的翻译该文章。另外由于笔者也是刚刚接触这个领域，所以文中难免出现一些理解不到位的地方，还请大家多多指出，互相交流。

本文所提出的模型是在受到早期灵长类动物的行为和神经元结构的启发后提出来的，该模型主要分为两个部分：一个部分是通过获得图像在多个尺度下的特征，然后将其进行有效的组合形成显著性图，另一部分是通过模拟一个动态神经元，根据显著性图上的显著性进行降序排序，然后选取我们人们最先应该注意的区域，以及随后会注意的区域。从第二个部分应该可以看出，该模型确实是受到灵长类的神经元结构的启发后提出来的，后面还有一些能够体现该模型是仿生的处理方式，即尽量与人的视觉注意机制保持一致。在正式介绍模型之前，我们先来了解下显著性这个东西到底是什么以及为什么要用计算机来获取图像的显著性。
显著性是什么以及为什么要用计算机来获取图像的显著性？
这个答案非常简单，因为人类看东西也是存在显著性的，我们一直都希望的事情就是计算机能够像人类一样工作。人在用眼睛看到一个场景的时候，会首先注意到场景中非常特别、吸引人的部分。举个例子，有十个陌生人朝你走过来，从左到右第八个人穿的黑色衣服，其他九个人穿的白色衣服，除了衣服颜色不一样，其他一模一样。不带任何主观目的地看，你会首先注意到谁？一般来说我们会注意到穿黑色衣服的那个人，为什么呢？因为他和其他九个人衣服颜色不一样，即他在这十个人里面是显著的，人类会首先注意到显著的东西。那我们说人首先会注意到显著的东西这句话有没有科学依据呢？论文中提到说经过前人的一些研究发现，中级和高级的视觉处理过程会首先选取当前场景的一个子集，然后再进一步进行处理，比如进行分类识别等，这样做的目的是减少场景分析的复杂度。那么这个子集会包括什么内容呢？主要包括的就是“focus of attention”,后文称为FOA，即注意的焦点。选取这些焦点是通过两种方式的结合，一种是自下而上(bottom-up)的、基于显著性驱动的与任务无关的方式，这种方式是快速的，另一种是自上而下(top-down)的，受到我们意志力控制的、与任务相关的方式，这种方式是相对较慢的。在本文的“十个人”的例子，如果你不带任何目的的看这十个人，那你首先注意到的一般会是黑色衣服的那个人，这就是bottom-up的方式，我对这里bottom-up的理解是bottom指的是场景，up指的是大脑，即场景中什么东西最特别，那我的大脑就先注意到什么东西。bottom-up的前提是你不带任何目的的看，那假如说现在我接到了一个任务，告诉我说事实上这十个人里面，最左边的那个是一位特工，其他9个人都是他的替身，用来掩人耳目的而已，而我要做的事情是和真正的特工接头，比如说走到那个特工面前然后对念两句唐诗就完成了接头。那么当这十个人朝你走过来的时候，你会首先注意到哪个人？你可能会说我又没有和特工碰过头我怎么知道(说得跟我和特工碰过头似的。。)可以类比你去机场或者车站接朋友的时候，在人群中我们一定会先注意到朋友在哪儿，而不会是其他人在哪儿。这就是top-down的方式，即我们大脑中已经有了一个目的或者说任务要找谁，然后当场景出现的时候自然就会基于这个任务去选择首先注意到谁。

模型介绍

模型的整体结构图见下图，暂时不用关注图中每一层是什么意思，后面会陆续介绍到。

(一) 获取高斯金字塔图像

一般而言，该模型的图片输入是640 * 480像素的，首先进行高斯金字塔的操作，简单地理解就是对图像进行高斯模糊然后降采样，形成包括原图尺度在内的总共9个尺度的图像，尺度0下图像的面积和原图像面积比例为1:1，，从尺度0到尺度8，降采样后的图像和原图面积比例依次为[1:1;1:2;1:4;1:8;1:16;1:32;1:64;1:128;1:256]，这个结果是我根据论文的内容推测的，具体是否是这9个尺度还待进一步验证。上图中第二层有一个linear filtering，指的就是高斯模糊，因为高斯核是唯一的线性核，也就是说使用高斯核对图像模糊不会引入其他噪声，而论文中提到了一个名词叫做octave，中文是八度的意思，这个名词在高斯金字塔中有着很重要的含义，具体关于高斯金字塔的细节问题参考博文http://blog.csdn.net/honpey/article/details/8639617。总而言之，我们现在获得了一副图像在9个尺度下的图像，也就是有9幅图像了。

现在我们对于1副图像可以获得相应不同尺度下的9幅图像了，那么这些图像有什么作用呢？接下来介绍"center-surround"的一个人类视觉机制，这个机制的意思是说典型的视觉神经元对视觉空间的一个小的区域最为敏感，这个小的区域叫做中心，然而在一个更大且更弱的和中心同心的敌对区域会抑制神经元的响应，这个区域叫周围的区域。这样的结构对局部空间的不连续性非常敏感，这句话可以理解为我们对场景中边缘的部分比较敏感，因为边缘处就是图像不连续的地方。这种机制非常适合用于检测和周围区域不同得中心区域。而用计算机模拟这种机制的方法就是对图像做好的尺度图像(和原图尺度相近的尺度)与坏的尺度图像(和原图差距较大的尺度)的差分。因此，之前得到的9幅图像就有了他的用武之地了。中心指的是在尺度c,c