Saliency Detection: A Spectral Residual Approach

最新推荐文章于 2020-11-30 15:31:34 发布

Archy瞬

最新推荐文章于 2020-11-30 15:31:34 发布

阅读量1.3k

点赞数

分类专栏： NOTE 文章标签：显著性

原文链接：https://www.researchgate.net/journal/1063-6919_Proceedings_CVPR_IEEE_Computer_Society_Conference_on_Computer_Vision_and_Pattern_Recognition_IEEE_Computer_Society_Conference_on_Computer_Vision_and_Pattern_Recognition

版权

NOTE 专栏收录该内容

30 篇文章

订阅专栏

介绍

文章出自2007年好像当时是大三的上交大神现在是图森创世兼CTO，侯晓迪。引用某老师的话：“简单，出奇的简单！这篇论文一共5行matlab代码，比一般论文abstract中的字符还少，作者直接贴到论文中了。”
谷歌被引截至目前已达3330。

显著性检测：一种频谱残差方法

摘要

人类视觉系统检测视觉显著性的能力是非常快速和可靠的。然而，对这一基本智能行为的计算机建模仍然是一个挑战。作者提出了一种简单的视觉显著性检测方法。
我们的模型与对象的特征、类别或其他形式的先验知识无关。通过对输入图像的对数谱进行分析，提取出光谱域内图像的光谱残差，提出了一种在空间域内快速构建相应的显著性映射的方法。
我们在自然图像和人工图像上对该模型进行了测试。结果表明，该方法具有快速、鲁棒的显著性检测效果。

引言

目标识别的第一步是目标检测。目标检测的目的是在识别目标之前从背景中提取目标。但是在进行识别特征分析之前，机器视觉系统如何从未知背景中提取出显著区域呢?
传统的模型，通过将特定的特征与目标联系起来，实际上将这个问题转化为检测特定类别的对象。由于这些模型是基于训练的，扩展性成为广义任务的瓶颈。面对不可预测的、种类繁多的视觉模式，需要一个通用的显著性检测系统。换句话说，显著性检测器的实现应该尽可能少地参考目标的统计知识。
在人类视觉系统中，显著性检测是如何实现的?人们认为，视觉加工包括两个阶段：首先，平行的、快速的、但简单的前意识过程；然后是连续的、缓慢的、复杂的注意力过程。在文献中已经讨论了前意识处理的性质，在这个阶段某些低层次的特征，如方向、边缘或强度，可以自动“弹出”。从对象检测的角度看，在前注意阶段出现的是对象的候选。为了处理一个已被检测到但尚未被识别为对象的候选对象，
Rensink在他的连贯理论中引入了原型对象的概念。
为了找到给定图像中的“原型对象”，机器视觉领域发明了模型。基于Treisman的整合理论，Itti和Koch提出了一种显著性模型来模拟人的视觉搜索过程。然而，作为预处理系统，这些模型需要大量的计算。
现有的检测模型多侧重于对目标物体特性的总结。但是，由不同类别的对象共享的一般属性不太可能存在。在这篇论文中，我们用另一种方式提出这个问题：探索背景的属性。
在第二节中，介绍了光谱残差。从自然图像统计的原理出发，提出了一种前端方法来模拟前意识视觉搜索的行为。与传统的图像统计模型不同的是，我们分析了每幅图像的对数谱，并得到了谱残差。然后将光谱残差转化为空间域，得到反映原目标位置的显著性图。在第3节中，我们还演示了基于谱残差方法的多目标检测。
为了评估我们的方法的性能，在小节中4.1，我们将我们的方法与和人工标记的结果进行比较。结果表明，该方法是一种快速、可靠的早期视觉处理计算模型。

谱残差模型

高效编码是一个通用的框架，在这个框架下，我们的视觉处理的许多机制都可以被解释。Barlow首先提出了有效编码假说，消除了感官输入的冗余。视觉系统的一个基本原则是抑制对频繁出现的特征的响应，同时对偏离常态的特征保持敏感。因此，只有未预料到的信号才能传递到处理的后期阶段。
从信息论的角度，有效编码将图像信息H(image)分解为两部分：
$H (I m a g e) = H (I n n o v a t i o n) + H (P r i o r K n o w l e g d e)$
$H (I n n o v a t i o n)$ 表示新颖性部分， $H (P r i o r K n o w l e g d e)$ 是编码系统应该抑制的冗余信息。在图像统计领域，这种冗余对应于环境的统计不变性。这些性质在有关自然图像统计的文献中得到了全面的讨论。现在人们普遍认为自然图像不是随机的，它们服从高度可预测的分布。
在接下来的章节中，我们将演示一种通过去除统计冗余成分来近似图像“创新”部分的方法。我们认为，这一部分对前意识阶段原目标的出现负有内在的责任。

对数频谱表征

在自然图像统计的不变因子中，尺度不变性是最著名、研究最广泛的性质。这个性质也被称为 $1 / f$ 定律。它表示自然图像集合的平均傅里叶光谱振幅 $A (f)$ 服从一个分布：
$E\{A(f)\}\propto 1/f$
在对数-对数尺度上，自然图像集合的振幅谱经过对方向的平均后，近似地位于一条直线上。
虽然log-log谱在理论上已经成熟并得到了广泛的应用，但在单独的图像分析中并不受欢迎，因为：(1)单个图像不太可能具有尺度不变性；(2)采样点比例不均匀，低频部分在对数-对数平面上分布稀疏，高频部分相互靠近，噪声大。
本文采用对数谱 $L (f)$ 代替对数-对数表示图片。 $L (f)$ 由 $L (f) = l o g (A (f))$ 得到。log-log表示与log- spectrum表示的比较如图1所示。
相关的文献中，对数谱表示法已被用于一系列的统计场景分析。
对数谱和对数-对数谱的例子。第一张图像是2277张自然图像的平均值。
对数谱的平均方向曲线
在下一节中，我们将在显著性检测任务中利用对数谱的能力。我们发现不同图像的对数谱具有相似的趋势，尽管每个图像都包含统计奇异点。图3分别为1、10、100幅图像的平均光谱曲线。这一结果表明在平均对数谱中存在局部线性。
在这里插入图片描述

从频谱差到显著性映射

相似性意味着冗余。对于一个旨在最小化冗余视觉信息的系统，它必须意识到输入刺激的统计相似性。因此，在可以观察到大量形状相似的不同对数谱中，值得我们注意的是从光滑曲线中跳出来的信息。我们认为，光谱中的统计奇点可能是导致图像中出现异常区域的原因，在这些区域中会出现原型物体。给定一个输入图像，从高度(或宽度)等于64像素的下采样图像计算log spectrum L(f)。输入大小的选择与视觉尺度有关。视觉尺度与视觉显著性的关系在3.1节中讨论。如 $L (f)$ 项所载的信息是预先取得，则以一下方式处理信息：
$H(R(f))=h(L(f)\mid A(f))$
其中 $A (f)$ 表示作为先验信息的对数谱一般形状， $R (f)$ 表示输入图像特有的统计奇异性。本文将 $R (f)$ 定义为图像的光谱残差。如图3所示，平均曲线为局部线性。
因此，采用局部平均滤波器 $h_{n}(f)$ 来近似 $A (f)$ 的形状是合理的。实验中， $n$ 等于3。改变 $h_{n}(f)$ 的大小只会略微改变结果(见图5)。

平均频谱 $A (f)$ 可以通过卷积输入图像近似得到：
$A(f)=h_n(f)*L(f)$
其中 $h_n(f)$ 为 $n \times n$ 矩阵，定义为
$h_n(f)=\frac{1}{n^2} \begin{pmatrix} 1& 1& \cdots&1 \\ 1& 1& \cdots & 1\\ \vdots & \vdots& \ddots& \vdots\\ 1& 1& \cdots&1 \end{pmatrix}$
因此，通过以下方法可以得到光谱残差 $R (f)$ ：
$R (f) = L (f) - A (f)$
在我们的模型中，光谱残差包含了图像的创新。它就像一个场景的压缩表示。利用傅里叶反变换，我们可以在空间域内构造输出图像，称为显著性映射。显著性地图主要包含场景中重要的部分。剩余光谱的内容也可以解释为图像中未预料到的部分。因此，显著性图中每一点的值都被平方以表示估计误差。为了获得更好的视觉效果，我们使用高斯滤波器平滑显著性映射 $g(x)(\sigma=8)$ 。
总之，给定图像 $I (X)$ ，可得：
$A(f)=R(F[I(x)]),\\ P(f)=J(F[I(x)]),\\L(f)=log(A(f)),\\R(f)=L(f)-h_n(f)*L(f)\\S(x)=g(x)*F^{-1}[exp(R(f)+P(f))]^2$
$F$ 是傅里叶变换， $F^{-1}$ 为傅里叶逆变换。 $P (f)$ 图像的相位频谱。

在显著性映射中检测原始对象

显著性映射是原对象的显式表示，在本节中，我们使用简单的阈值分割来检测显著性中的原对象。给定图像 $S (x)$ ，得到目标映射 $O (x)$ ：
$O(x)=1\ \ \ \ \ \ \ \ if S(x)>threshold \\O(x)=0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ otherwise$
根据经验设置阈值 $threshold=E(S(x))\times 3$ ， $E (S (x))$ 是显著性平均强度。阈值的选择是虚警与忽略目标之间的权衡问题。第4.1节对此问题进行了简要讨论。在生成对象映射O(x)时，可以很容易地从输入图像中对应的位置提取原始对象。在生成对象映射O(x)时，可以很容易地从输入图像中对应的位置提取原始对象。按顺序提取多个目标。

视觉尺度的选择

视觉系统在一定的尺度下工作。例如，在一个大的尺度上，一个人可能把房子当做一个物体，但在一个小的尺度上，房子的前门很可能作为一个物体凸显。我们实验中尺度的选择等于输入图像大小的选择。当图像较小时，省略细节特征，进行大规模的视觉搜索。然而，在更小的尺度上，大的特征相对于图像中微小但突然的变化变得不那么有竞争力。改变比例会导致显著性图的不同结果。该特性如图7所示。视觉尺度与视觉传感器的光学能力密切相关。对于预注意任务，采用常数因子作为视觉尺度的估计是合理的。由于前注意视觉的空间分辨率非常有限。如果没有一个缓慢的细看过程，人类不太可能感知到图像的细节。对应于傅里叶频谱[12]中的高频部分。通过仿真实验，我们发现64像素的输入图像宽度(或高度)是一个很好的尺度正常视觉条件的估计。