(推荐一个我自己做的普法公众号,大可说法律,有法律方面咨询的可以关注)
从某种意义上讲,这篇文章对Saliency detection的问题做了重新的定义,让问题定义更加回归实际应用。
摘要
视觉显著区域的检测对于目标分割、自适应压缩和目标识别等应用非常有用。提出了一种基于显著性边界的显著性区域检测方法。这些边界通过从原始图像中保留比其他现有技术多得多的频率内容来保持。该方法利用了颜色和亮度的特点,实现简单,计算效率高。我们将我们的算法与五种最先进的突出区域检测方法进行比较,包括频域分析、地面真值和显著目标分割应用。该方法在地面真实感评价和分割任务上均优于五种算法,具有较高的精度和较好的查全率。
引言
视觉显著性是使一个物体、人或像素相对于它的邻居突出从而吸引我们注意力的感知特性。视觉注意力既来自于视网膜输入的快速的、预先注意的、自下而上的视觉显著性,也来自于较慢的、自上而下的记忆和基于意志的、依赖于任务的处理。
本文的研究重点是图像中视觉显著区域的自动检测,在自适应内容传输、基于自适应兴趣区域的图像压缩、图像分割、目标识别、内容感知图像大小调整等应用中具有重要意义。我们的算法发现低层次的、预先关注的、自底向上的显著性。它的灵感来自于围绕中心对比的生物学概念,但不是基于任何生物学模型。
当前的显著性检测方法会生成分辨率低、边界定义不清或计算成本高的区域。另外,一些方法在对象边缘产生更高的显著性值,而不是生成均匀覆盖整个对象的映射,这是由于没有利用原始图像的所有空间频率内容造成的。我们分析了五种最先进的技术所保留的原始图像中的空间频率,并直观地说明这些技术主要使用图像中的极低频内容。我们介绍了一种频率调谐的方法来估计中心周围的对比度使用颜色和亮度的特点,提供了三个超过现有方法的优势:均匀显著的显著性区域与明确的边界,全分辨率和计算效率。生成的显著性图可以更有效地应用于许多应用中,这里我们给出了对象分割的结果。我们提供了一个客观的比较,显著映射的准确性与五种最先进的方法使用的1000幅图像的地面真相。我们的方法在精度和回忆方面优于所有这些方法。
决定显著性的一般方法
显著性一词被Tsotsos等人的和Olshausen等人的在他们关于视觉注意的著作中使用Itti等人在他们的工作中的快速场景分析。显著性也被称为视觉注意力、不可预测性、稀有性或惊喜。显著性估计方法大致可分为基于生物学的、纯计算的或组合的。通常,所有的方法都采用一种低层次的方法,即使用强度、颜色和方向等一个或多个特征来确定图像区域相对于其周围环境的对比度。
Itti等人将他们的方法建立在Koch和Ullman提出的生物学上合理的架构上。他们使用差值来确定中心-周围的对比高斯函数(DoG)的方法。Frintrop等人提出了一种受Itti方法启发的方法,但他们使用方形滤波器计算中心环绕差值,并使用积分图像来加速计算。其他方法纯粹是计算性的,不基于生物视觉原理。马和
Zhang和Achanta等人使用中心-环绕特征距离估计显著性。Hu等人通过在特征图的直方图阈值化得到的初始显著性测度上应用启发式测度来估计显著性。Gao和Vasconcelos最大化了图像中中心和周围区域特征分布之间的互信息,而Hou和Zhang则最大化了图像中中心和周围区域特征分布之间的互信息依赖于频域处理。
第三类方法是那些部分基于生物模型,部分基于计算模型的方法。例如,Harel等人使用Itti的方法创建特征图,但使用基于图的方法进行归一化。其他方法使用计算方法,如信息最大化代表了一个生物学上可信的显著性检测模型。
一些算法在多个尺度上检测显著性,而其他操作在一个单一的规模。另外,单独创建特征图,然后将其组合得到最终的显著性图,或者直接得到特征组合显著性图。
显著性映射的局限
大多数方法生成的显著性图分辨率较低,Itti的方法生成的显著性映射仅为原始图像大小的256分之一(以像素为单位),而Hou和Zhang则为任何输入图像大小输出大小64*64像素的映射。一个例外是Achanta等人提出的算法,输出与输入图像大小相同的显著性映射。这是通过改变滤镜的大小来实现的,而不是改变原始图像的大小。
根据显著性区域探测器,一些映射还具有定义不清的对象边界,限制了它们在某些应用程序中的有用性。这是由于输入图像的大幅缩小导致的,它减少了在创建显著性映射时所考虑的原始图像的空间频率范围。其他方法突出显著的对象边界,但未能统一映射整个突出区域,或突出较小的突出区域优于较大的突出区域。这些缺点是由于在计算最终的显著性图时,从原始图像中保留的空间频率范围有限,以及特定的算法性质造成的。
显著性检测器的频域分析
我们从频域的角度研究了五种最先进方法的显著性图创建过程中使用的信息内容。五个显著性检测器分别是Itti等,Ma和Zhang等,Harel等,侯、张、Achanta等分别称为IT、MZ、GB、SR、AC。我们把我们提出的方法称为IG。选择这些算法的原因有:文献引用(它的经典方法被广泛引用),近因(GB、SR和AC是最近的)和多样性(它是由生物学驱动的,MZ纯粹是计算的,GB是一种混合方法,SR估计频率域的显著性,和
AC输出全分辨率地图)。
显著性映射的空间频率组成
为了分析五种显著性算法的性质,我们研究了计算最终显著性图时保留的原始图像的空间频率内容。
在第4.3节中,我们提出的算法所保留的空间频率范围比用于比较的算法更合适。为了简单起见,下面的分析将在一个维度中给出,必要时将对两个维度进行扩展。
IT方法采用逐次高斯模糊和逐次降采样的方法,建立一个9层的高斯金字塔(0层为原始图像)。在亮度图像的情况下,这导致从输入图像连续减少空间频率保留。每个平滑操作近似地将图像的归一化频谱减半。在8次这样的平滑操作之后,在8级范围内保留原始图像的频谱频率为
[
0
,
π
/
256
]
[0 , \pi/256]
[0,π/256]。该技术从这个金字塔计算高斯平滑图像的差异,调整到4级的大小,这导致使用的频率内容从原始图像的范围变为
[
π
/
256
,
π
/
16
]
[\pi/256,\pi/16]
[π/256,π/16],因此,从原始图像中保留的网络信息包含很少的细节,并且表示原始图像的非常模糊的版本(见图2(b)的带通滤波图像)。
MZ、SR、AC方法的其他性质
频率调谐的显著性检测
显著性映射的需求
- 强调最大的显著的物体。
- 均匀地突出整个显著性区域。
- 建立明确界定的边界突出的对象。
- 忽略由纹理、噪声和阻塞伪影产生的高频。
- 高效输出全分辨率的显著性映射。
设 ω l c \omega_{lc} ωlc为低频截止值, ω h c \omega_{hc} ωhc为高频截止值。为了突出大的突出物,我们需要考虑来自原始图像的非常低的频率,即lc必须是低的(第一个标准)。这也有助于一致地突出显著的对象(第二个标准)。为了有明确的边界,我们需要保留原始图像的高频率,即 ω h c \omega_{hc} ωhc必须是高的(第三个标准)。然而,为了避免噪声、编码伪影和纹理模式,需要忽略最高频率(第四个标准)。由于我们对包含广泛频率范围的显著性映射感兴趣,因此我们将几个带通滤波器的输出与相邻的相结合的通频带 [ ω l c , ω h c ] [\omega_{lc},\omega_{hc}] [ωlc,ωhc]是适当的。
结合 DoG带通滤波器
我们选择DoG滤波器。DoG滤波器由于能较好地逼近高斯函数的拉普拉斯变换,在边缘检测中得到了广泛的应用,LoG滤波器,被认为是检测强度变化最令人满意的算子,当高斯信号的标准差为1:1.6时。该算法还可用于兴趣点检测和显著性检测。DoG滤波器表示如下:
DoG带通滤波器其带通宽度由
σ
1
:
σ
2
\sigma_1:\sigma_2
σ1:σ2的比值确定。我们考虑结合几种窄带带通DoG滤波器,如果我们定义
σ
1
=
ρ
σ
\sigma_1=\rho \sigma
σ1=ρσ,
σ
2
=
σ
\sigma_2=\sigma
σ2=σ,因此
ρ
=
σ
1
/
σ
2
\rho=\sigma_1/\sigma_2
ρ=σ1/σ2,我们发现标准差比值为
ρ
\rho
ρ的DoG和表示如下:
令
K
=
ρ
N
K=\rho^N
K=ρN,也就是说我们可以通过取较大的K值获得较宽频带的DoG滤波器。
参数选择
为了实现K值(即标准差比率)较大,我们令 ρ \rho ρ趋近无穷大,为了去除高频噪声和纹理,我们使用一个小的高斯核函数来保持计算的简单性。对于小核函数,二项滤波器在离散情况下能很好地逼近高斯分布。我们令 ω h c = π / 2.75 \omega_{hc}=\pi/2.75 ωhc=π/2.75。
计算显著性
我们为输入图像
I
I
I(W*H像素)寻找显著性映射S:
I
μ
I_{\mu}
Iμ图像的算术平均像素值,
I
ω
h
c
I_{\omega_{hc}}
Iωhc是原图像的高斯模糊版本,以消除细纹理、噪声及编码伪影。为了扩展公式7使用颜色和亮度的特点,我们重写如下:
类比
显著性图的真正有用性取决于应用。本文研究了显著性映射在目标分割中的应用。为了分割一个突出的对象,我们需要对显著性映射进行二值化(白色像素)对应突出的物体像素,而为零(黑色像素)对应背景。我们用我们的方法与上述五种方法进行了比较。在第一个实验中,我们使用固定阈值来二值化显著性映射。在第二个实验中,我们对显著性映射进行图像自适应二值化。为了获得客观的分割结果比较,我们使用了一个地面真值图像数据库。我们从Liu等人使用的公共可用数据库派生出该数据库。该数据库提供由9个用户围绕突出区域绘制的边界框。然而,正如Wang和Li[28]所指出的,基于边界框的地面真相远非准确。因此,我们创建了一个包含1000幅图像的精确的基于物体轮廓的地面真相数据库(如图4所示)。
本文两个图片引用某博主文中图片,感觉很好理解。