图像显著度(saliency detection)研究现状调研

已下博文转自 http://blog.csdn.net/huangbo10/article/details/19788547?utm_source=tuicool


关于显著度的研究是从生物研究发展而来,早期比较重要的工作是C.Koch与S.Ullman做的,时间可以追溯到1985年。 
显著度的获取方式主要有两种:自上而下,从高层语义入手,其实目标检测等等也可以归入这一类中;更普遍的是自下而上,从底层特征入手。直到现在,第二种自下而上的方法仍是主流。 
从CV角度研究显著度问题从1998年开始,开创者是Itti。其最出名的文章是A model of saliency based visual attention for rapid scene analysis,发表在1998年的PAMI上。 
这篇文章基本奠定了显著度研究的基本思路,即: 特征提取—>归一化—>特征综合/显著度计算—>显著性区域划分/兴趣点标定 。 
在最初的文章中主要采取启发式的方法提取特征,依据生物学研究,主要提取亮度、色彩、旋转一致性三种特征,得到三种feature map。随后这些feature map被归一化以便综合,综合方法是简单的相加。从综合后的saliency map上提取前N个峰值即为寻求的interest point。 
随后的很多研究都采取了这样的框架,针对特征提取/特征综合等等不同的阶段分别进行优化。 
例如这篇:J. Harel, C. Koch, &P. Perona. Graph-based visual saliency. Advances in Neural Information Processing Systems, 19:545-552, 2006. 
假定仍采用原先的特征提取方式,但是 综合阶段使用的不是线性组合而是马尔科夫随机场 ,获得了比Itti更好的效果。 
另两篇Xiaodi Hou, Jonathan Harel and Christof Koch: Image Signature: Highlighting Sparse Salient Regions (PAMI 2012) 
和R. Achanta, S. Hemami ,F. Estrada,& S. Süsstrunk, Frequency-tuned salient region detection. IEEE International Conference on Computer Vision and Pattern Recognition, 2009, pp.1597-1604. 
则是定义了一种新的底层特征提取方法,计算saliency的过程仍采用马尔科夫随机场。 
采用条件随机场的比较著名的一篇文章应该是Tie Liu, Jian Sun, Nan-Ning Zheng, Xiaoou Tang and Heung-Yeung Shum. Learning to Detect A Salient Object. In Proc. IEEE Cont. on Computer Vision and pattern Recognition (CVPR), 2007. 
引用665次!作者建立了一个10k级别的数据库(手工标注方框),并提出了系统的评估方法。 
2007年,侯晓迪另辟蹊径,提出了一种完全不同的思路,称为频域残差法。这种方法不考察前景的特点,反而去研究背景都具有那些特点 ,从图片中提取跟这些特点不符的就是interest point。 
其考察背景特征的方法是计算图片的log频谱,发现对于自然图片,其曲线应该与1/f成正比。因此只需从待考察频谱中减去基准频谱,剩下的就是需要关注的部分。 
R. Achanta, S. Hemami ,F. Estrada,& S. Süsstrunk, Frequency-tuned salient region detection. IEEE International Conference on Computer Vision and Pattern Recognition, 2009, pp.1597-1604. 
在频域残差法的基础上,复旦大学有人提出了利用 相位谱 的方法。相位谱就是仅仅保留频谱分量的符号而不保存其值,这样可以获得更高的计算效率。 
在获得每个点的相位谱之后,两点之间的距离简单地用hamming距离表示,随后采用条件随机场进行优化。其文章发表于2008年CVPR。 
Chenlei Guo, Qi Ma, Liming Zhang: Spatio-temporal Saliency detection using phase spectrum of quaternion fourier transform. CVPR 2008 
同样采用相位谱的还有M. Holtzman-Gazit, L. Zelnik-Manor and I.Yavne, " Salient Edges: A MultiScale Approach", ECCV 2010 Workshop on Vision for Cognitive Tasks. 
不同点是,他们还对图片提取了多种分辨率。其思想是, 无用的背景在多种分辨率下应该是相似的,而有用信息则只出现在某几层中。 
同一拨人还做了大量细致的工作。S. Goferman, L. Zelnik-Manor, and A. Tal. Context-Aware Saliency Detection. CVPR 2010. 
这篇文章中,他们提出应当同时考虑局部信息和全局信息,例如 注意力应该集中在某些特定区域而不是分散,距离视觉焦点更近的点容易被观察到 等等,效果拔群。 
采用底层特征和高层(全局)特征结合方法的还有Tilke Judd, Krista Ehinger, Frédo Durand, Antonio Torralba.Learning to predict where people look,International Conference on Computer Vision, ICCV 2009. 
这篇文章中,他们提取了三个层次的特征:一般的底层特征,自然场景中的地平线,人脸检测(采用V-J算法)。 
以上是比较主流的做法。其余还有一些人,例如Xiaohui Shen and Ying Wu, "A Unified Approach to Salient Object Detection via Low Rank Matrix Recovery", in IEEE Conference on Computer Vision and Pattern Recognition (CVPR)(Oral), 2012.希望通过寻找图像在特征空间中的有效表示(可以将图片信息简洁的分为无用部分+有用部分)来解决问题。 
Chuan Yang, Lihe Zhang, Huchuan Lu, Minghsuan Yang, Saliency Detection via Graph-Based Manifold Ranking, CVPR 2013.则希望通过流形嵌入解决问题,用到了大量的数学推导(原谅我这两篇都没看懂。。。)。 
总结:从近几年的趋势来看,纯数学的 频域方法似乎没什么潜力 。人们更多的还是 关注有效的特征提取以及高层特征和底层特征的结合 。 
saliency的问题具有特殊性,因为我们容易给出的ground truth是0或1,而不是0-1之间的连续值。这就让神经网络在这里难以训练,相反有的借助SVM的方法(Tilke Judd, Krista Ehinger, Frédo Durand, Antonio Torralba.Learning to predict where people look,International Conference on Computer Vision, ICCV 2009.)效果不错。 

学习算法在这里发挥的作用似乎不是很大,可以从高层起到一些辅助作用(例如特定的类别和目标检测),但不本质。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值