saliency detection论文(一)—Saliency Detection: A Spectral Residual Approach

目录

本文是对Xiaodi Hou和Liqing Zhang写的《Saliency Detection: A Spectral Residual》的翻译与总结:

《Saliency Detection: A Spectral Residual Approach》是上交高材生侯晓迪在07年的CVPR上发表的一篇论文,这篇文章提出了一个图像视觉显著性的简单计算模型,这个模型和Irri提出的模型是两个截然不同的模型,Irri模型对于图像视觉显著性主要关注整幅图片突出的部分,通过各种特征的融合提取显著性图,而Hou的这个模型一上来关注的点就不在一张图片里突出的地方,而是背景。因为各种object的特征各不相同,想要找到他们的共同特征,然后定位saliency object是较为困难的。所以Hou他们换一种思考的方式,就是不找object的共性,而是找背景的共性,背景图像也就那么几种,而且大多是有共性的,所以通过找到背景的共性,然后剔除背景,剩下的就是saliency了。他们是基于图像的频谱来进行操作的.

1. Abstract

   虽然对于人类的视觉系统来说,能够非常准确快速的检测一个显著性的Object,但是对于基于computational模型的人工智能来说,仍然是一个巨大的挑战。这篇文章提出来了一种非常简单的显著性检测的方法。
   这个方法是独立于features,策略或者其它的之前关于object的,它是通过分析输入图像的log-spectrum,然后在spectral域提取出图像的残差谱(即就是突出部分的光谱表示。具体的算法后面有讨论)。然后通过这个残差谱通过反傅里叶变化求出saliency map。
   对于这个模型的测试不仅基于自然图像,也在合成图像上进行了测试,结果显示这个方法的快速、鲁棒性非常好。

2. 残差谱模型

     Barlow提出的有效编码假说指出,感知系统的信息处理过程与外界信号的统计特性密切相关。初级感知系统的作用就是去除输入信号的统计冗余。也就是说,大脑之所以能够对外界环境自适应,是因为复杂的外界刺激存在冗余,而大脑的神经元能够有效地去除这些冗余,从而可以利用较少的资源尽可能有效地表达更多的信息。从信息论的角度来看,有效编码假说将图像信息H(Image)分为两部分:

H(Image)=H(Innovation)+H(Prior Knowledge)

H(Innovation)表示突出的部分,H(Prior Knowledge)则表示冗余的信息。通过去除图像冗余信息,就可以获得图像与众不同的部分,即显著目标。

2.1 log频谱表示

    自然图像的统计特性具有变换不变性:即将图像从原来的空间坐标变换到频率坐标系中,图像在空间中具有的统计特性在频域中仍然保留,这种不变性恰好保证了采用能量谱来刻画自然图像空间相关性的可靠性。
在自然图像的统计特性中尺度不变性是最经典也是研究最广泛的特性,这种特性也被称为1/f法则,即自然图像集合的平均傅里叶谱的幅值A(f)服从下式的分布。
下图反映了自然图像的log-log谱和log谱的区别。有图可见,log-log曲线近似为一条直线,而log曲线基本符合1/f法则。由于单幅图像具有尺度不变性以及log-log谱的数据分布不均衡(低频部分数据跨度大,高频部分数据汇集),所以本文采用log谱L(f)表示图像,L(f)=log(A(f))。

log谱与log-log谱的对比

2.2 从谱残差到显著图的获得

    对于一个系统模型而言,考虑输入刺激信号的统计相似性可以极大地减少多余的视觉信息,这是因为相似性意味着冗余。不同的图像数据,其log谱却有着相似的分布趋势,而且曲线满足局部线性条件。因此,在不同的log谱中我们只需要关注其差异部分忽略相似部分。
    给定一幅图像I(x)首先计算2维离散傅里叶变换,将其从空间域转到频域,对幅值取对数后得到log谱L(f),由于log曲线满足局部线性条件,所以用局部平均滤波器h(f)对其进行平滑,获得平均频谱:

平均频谱
试验中,n取3,因此谱残差就是log谱和其进行均值滤波后的差,可按下面的式子计算:
R(f)=L(f)-V(f)
因此,总共需要的式子有:
这里写图片描述

    先将图片进行傅里叶变换,计算振幅谱A(f),计算相位谱P(f)(复数x+i*y的相位是arctan(y/x)),L(f)是log振幅谱,h是一个n*n均值滤波的卷积核,作者设n=3。R(f)就是Spectral Residual谱,再将R(f)+i*P(f)求出自然指数exp。注意:由欧拉公式可知,exp(r+i*Θ) = exp(r)*(cos(Θ) + i*sin(Θ)) = exp(r)*cos(Θ) + i*exp(r)*sin(Θ),Θ是相位谱,然后对其傅里叶反变换,再进行一个高斯模糊滤波就得到了所谓的显著性区域。

这里写图片描述

3. 实验结果分析

文章使用一种新的对比方法,计算击中率和误警率,公式如下所示:
这里写图片描述

   其实就是object与saliency之间的一个对应的关系变形。其中Ok(x)表示第k个观察者标记的显著目标图,图中1代表目标物体,0代表背景,S(x)为计算出来的显著图,用击中率HR(hit rate)和误警率FAR(false alarm rate)来评价检测效果。

   这种评价标准说明一个最优的显著性检测系统其HR值应该在没有被标注为显著目标的区域具有最小值,在被大多数人标为显著目标的区域具有最大值。通过比较可以得到以下结果。

这里写图片描述

由图可以看出本文方法在计算时间上比Itti方法(*注:*Irri模型对于图像视觉显著性主要关注整幅图片突出的部分,通过各种特征的融合提取显著性图)更快,而且准确度也得到提升。
这里写图片描述

本文参考资料

1、Saliency Detection: A Spectral Residual Approach原文
2、博客:http://blog.csdn.net/chenjiazhou12/article/details/39522467

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值