论文阅读笔记（1）：A Model of Saliency-Based Visual Attention for Rapid Scene Analysis

最新推荐文章于 2021-06-29 12:35:00 发布

HPeak

最新推荐文章于 2021-06-29 12:35:00 发布

阅读量711

点赞数 1

分类专栏：图像处理文章标签：显著性

本文链接：https://blog.csdn.net/scarecrow_faith/article/details/89225174

版权

图像处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

论文题目：A Model of Saliency-Based Visual Attention for Rapid Scene Analysis
论文作者：Laurent Itti, Christof Koch, and Ernst Niebur
论文时间：1998

这篇文章可能已经有很多人阅读过，也有不少人写过关于这篇文章的笔记，但是，我想还是自己多读几遍原文，然后记录下自己的想法才是真正的读懂文章。

文章是基于早期灵长类视觉系统的行为和神经结构，提出一种视觉注意机制系统，将多尺度图像特征组合成一幅单一的地形显著性图，然后，动态神经网络按显著性降低的顺序选择人类注意的位置。该系统通过快速、高效地选择需要详细分析的显著位置，打破了复杂的场景理解问题。
注意力模型包括“动态路径”模型，其中只有一小部分视野中的信息可以通过皮质视觉层次进行传递。在自上而下（任务相关）和自下而上（场景相关）的控制下，通过动态改变皮质连接或建立特定的活动时间模式来选择人类注意区域。其主要思想是对输入图像首先进行多个特征通道（三个）和多尺度的分解（九层金字塔），再进行滤波得到特征图，再对特征图做融合计算得到最终的显著图。
这篇文章使用的模型（基于后面参考文献的模型）如下所示：
在这里插入图片描述
算法大致流程：

读取图像
提取特征
不同尺度间特征取差形成特征图
特征图融合
获取显著图

该模型的输入主要是以静态彩色图像为主，输入图像的分辨率大小为640 x 480，使用二元高斯金字塔创建九个空间尺度，它逐步对输入图像进行低通滤波器和二次采样。每个特征都是由一组类似于视觉接收场的线性“中心环绕”操作来计算的。当R、G和B为输入图像的红色、绿色和蓝色通道时，获得强度图像I，即I=（R+G+B）/3。I用于创建高斯金字塔i。R、G和B通道通过I进行归一化，以将色调与强度分离。
总共计算了42个特征图：6个用于强度，12个用于颜色，24个用于方向。
在缺乏自上而下的监督的情况下，作者提出一个归一化操作，该操作包括以下步骤，归一化操作流程如下图所示：

将映射中的值标准化为固定范围[0…M]，以消除模态相关振幅差异；
找到图的全局最大M的位置，并计算其所有其他局部最大的平均值¯m；
将全局图乘以(M-¯m)的平方。

在这里插入图片描述
在尺度为4的时候，将前面得到的特征图组合成三个显著图，分别表示强度（公式5）、颜色（公式6）和方向（公式7）。

对于方向，首先通过结合给定Q的六个特征图创建四个中间图，然后组合成一个方向显著图：
将这三个显著图作为输入汇总到最终的显著图S，如公式8所示：
在这里插入图片描述

具体步骤：

FOA移动到获胜神经元的位置；
WTA的整体抑制被触发，并完全抑制（重置）所有WTA神经元；
局部抑制在具有FOA大小和新位置的SM中短暂激活；这不仅产生FOA的动态变化，允许下一个最显著的位置随后成为获胜者，而且还阻止FOA立即返回到以前关注的位置。
同时和空间频率内容模型进行了比较，比较的结果如下图所示：

其中（a）是输入的彩色源图像，（b）是相应的显著图，（c）是相应的空间频率内容（SFC）图，（d）是显著性图输入高于最大值（黄色圆圈）98%的位置，以及SFC高于最大值（红色方块）98%的图像块。

下面是作者对该模型进行的人工图像测试，例如，有几个形状相同但与背景对比度不同的物体，按对比度降低的顺序排列。该模型被证明对向这些图像添加噪声非常稳健，特别是当噪声的特性（例如，其颜色）与目标的主要特征没有直接冲突时，如下图所示：
在这里插入图片描述
使用的图像的大小为768 x 512，其中目标（两人）以其独特的颜色对比度突出。另外，作者也使用了真实的图像进行模型的测试，使用的图像范围由自然室外场景到艺术绘画，并且使用归一化对特征图进行归一化处理。