(推荐一个我自己做的普法公众号,大可说法律,有法律方面咨询的可以关注)
Image Signature: Highlighting Sparse Salient Regions
摘要
我们介绍了一个简单的图像描述符,称为图像特征。我们证明,在稀疏信号混合的理论框架内,这个量在空间上近似于图像的前景。通过实验研究,提出了一种基于图像特征的显著性算法,研究了这种近似前景是否与视觉上明显的图像位置重叠。这种显著性算法在Bruce和Tsotsos[1]基准数据集上预测人类注视点的效果最好,而且运行时间更短。在一个相关的实验中,我们用一个变化盲视数据集证明,与使用其他显著性算法、像素或GIST[2]描述符方法相比,图像特征导致的图像之间的距离更接近人类感知距离。
1引言
在一个场景中找到所有的物体并将它们从背景中分离出来的问题被称为图形-背景分离。大脑可以非常迅速地进行这种[3]分离,而在机器上进行这种分离对工程师和科学家来说仍然是一个主要的挑战。这个问题与机器视觉的许多核心应用密切相关,包括场景理解、基于内容的图像检索、对象识别和跟踪。在本文中,我们提供了一种使用称为“图像特征”的二进制整体图像描述符来解决图形-背景分离问题的方法。它被定义为图像离散余弦变换(DCT)的符号函数。正如我们将演示的,这个简单的描述符优先包含关于图像前景的信息——我们认为这一属性是该描述符用于检测突出图像区域的有用性的基础。
在第2节中,我们阐述了稀疏信号分析框架下的图形-背景分离问题。我们证明了图像特征的**反离散余弦变换(IDCT)**相对于频谱稀疏背景,将图像能量集中在空间稀疏前景的位置。然后,在3.1节中,我们将在稀疏前景比复杂背景模式弱得多的合成图像上演示这一现象。提出了两个实验来量化图像特征与人类视觉注意力之间的关系。在第3.2节中,我们证明了在眼动注视点的基准数据集上,由图像签名导出的显著性映射优于许多领先的显著性算法。
在3.3节中,我们介绍了在一个变化盲性实验中从9名受试者收集的反应时间数据。我们发现,由图像特征所引起的图像之间的距离与从这些数据中推断出的图像之间的感知距离最接近,而这些感知距离来自于其他显著性算法、GIST描述符和更简单的像素度量之间的竞争度量。
1.1相关工作
整体图像处理缩短了分割、关键点匹配和其他局部操作的需要。随着人们对大规模图像检索系统的兴趣日益浓厚,整体图像描述符已经成为计算机视觉领域的研究热点。GIST[2]就是这方面的一个很好的例子。其他的整体场景模型侧重于前景和背景的分离。例如,Candes等人提出了一种稀疏矩阵分解模型。一个更相关的研究来自侯和张[5],由Oppenheim等人的早期发现[6],[7]激发。他们发现,残差傅里叶振幅谱,即原始傅里叶振幅谱与平滑后的傅里叶振幅谱之间的差异,可以用来形成显著性图。残差保留了比低频率更多的高频信息,平滑后的拷贝与原始的相似。相比之下,图像签名抛弃了整个频谱的振幅信息,只存储每个DCT分量的符号,相当于傅里叶分解的相位。因此,图像签名是非常紧凑的,每个组件只有一个比特,我们将在本文的其余部分中展示,它具有与图像前景相关的重要属性。
2图像特征
2.1预备处理
我们首先考虑灰度图像,其结构如下:
x
=
f
+
b
,
x
,
f
,
b
∈
R
N
x=f+b, \ \ \ \ \ \ \ \ x,f,b\in R^N
x=f+b, x,f,b∈RN
其中
f
f
f表示前景,并假设在标准空间基上稀疏支持。
b
b
b表示背景,并假设在离散余弦变换的基础上稀疏支持。有关本节其余部分使用的重要定义,请参阅表1。
一般来说,在只给出x的情况下对
b
b
b和
f
f
f进行精确的分离是非常困难的。对于图形-背景分离的问题,我们只对
f
f
f的空间支持感兴趣(
f
f
f为非零的像素集)。
重构图片表示为:
x
ˉ
=
I
D
C
T
[
s
i
g
n
(
x
^
)
]
\bar{x}=IDCT[sign(\hat{x})]
xˉ=IDCT[sign(x^)],其中
x
^
=
D
C
T
(
x
)
\hat{x}=DCT(x)
x^=DCT(x)。
图像特征可以正式定义为:
I
m
a
g
e
S
i
g
n
a
t
u
r
e
(
x
)
=
s
i
g
n
(
D
C
T
(
x
)
)
ImageSignature(x)=sign(DCT(x))
ImageSignature(x)=sign(DCT(x))
如果我们假设一个图像的前景相对于它的背景在视觉上是明显的,那么我们就可以通过对平方重构图像平滑来形成一个显著性映射m,
m
=
g
∗
(
x
ˉ
∘
x
ˉ
)
m=g*(\bar{x}\circ \bar{x})
m=g∗(xˉ∘xˉ)
g
g
g为高斯核。
我们在3.1节的实验表明,简单的高斯平滑是必要的,因为显著性目标的支持集
T
f
T_f
Tf不仅在空间上是稀疏的,而且在局部上也是连续的。
我们还定义了图像特征之间的距离度量D(汉明距离):
D
(
x
1
,
x
2
)
=
∥
s
i
g
n
(
x
^
1
)
−
s
i
g
n
(
x
^
2
)
∥
0
D(x^1,x^2)=\left \| sign(\hat{x}^1)-sign(\hat{x}^2) \right \|_0
D(x1,x2)=∥∥sign(x^1)−sign(x^2)∥∥0
基于图像特征优先包含前景信息的思想,这种减法比较了两幅图像中稀疏的前景信息,而无需首先显式地计算b或f。稍后,我们将为这个度量的效用提供经验证据。
2.2 图像特征:前景特性
在本节中,我们提供了证明,对于一个符合一定数学结构的图像,可以使用图像特征来近似地获得前景的位置。
命题一:特征抑制背景(根据图像特征重建的图像,逼近 足够稀疏的前景在足够稀疏的背景的位置:)
(详细证明过程见原文。)
命题二:对于从单位高斯分布中独立提取非零元素前景信号
f
f
f,超过79%的重构
f
ˉ
\bar f
fˉ包含于前景支持集
T
f
T_f
Tf。(详细证明过程见原文。)
2.3 汉明距离捕捉共享背景图像间的角度不符合值
3 试验
3.1 合成图片的特征
在前一节中,我们提供了将图像特征连接到稀疏前景的空间支持的理论参数。在本节中,我们使用合成图像来演示它在精心构建的案例中的行为。在后面的部分中,我们将演示图像特征在实际应用中的效用。
让
f
,
b
,
x
∈
R
64
×
64
f,b,x \in R^{64 \times 64}
f,b,x∈R64×64。前景支持为大小
5
×
5
5\times5
5×5(
∣
T
f
∣
=
25
\left | T_f\right |=25
∣Tf∣=25)的块,随机出现在某位置。
3.2 生成图像的显著性映射
3.2.1 预测人类注视点
3.3 变化盲视的相关性
变化盲视是一种引人注目的现象,当观察时间超过一分钟或更长时,受试者没有注意到一对图像中其他方面的明显变化。
3.3.1 试验设置
3.3.2 将算法输出与反应时间关联起来
结论
我们介绍了图像特征作为一个简单而强大的自然场景描述符。在理论论证的基础上,我们证明了该描述符可以用来近似隐藏在稀疏背景中的稀疏前景的空间位置。我们提供的实验数据表明,由图像特征突出显示的近似前景位置与人眼运动注视点的位置非常一致,在一小部分计算成本的情况下,预测效果优于领先的显著性算法。我们还提供了一个变化视盲实验的结果,在这个实验中,图像特征描述符最准确地预测了稍微不同的图像之间的感知距离。