图像显著度（saliency detection）研究现状调研

最新推荐文章于 2022-11-24 10:30:00 发布

Hello TiMe

最新推荐文章于 2022-11-24 10:30:00 发布

阅读量1.5k

点赞数

分类专栏：图像显著性提取

图像显著性提取专栏收录该内容

2 篇文章 0 订阅

订阅专栏

已下博文转自 http://blog.csdn.net/huangbo10/article/details/19788547?utm_source=tuicool

关于显著度的研究是从生物研究发展而来，早期比较重要的工作是C.Koch与S.Ullman做的，时间可以追溯到1985年。
显著度的获取方式主要有两种：自上而下，从高层语义入手，其实目标检测等等也可以归入这一类中；更普遍的是自下而上，从底层特征入手。直到现在，第二种自下而上的方法仍是主流。
从CV角度研究显著度问题从1998年开始，开创者是Itti。其最出名的文章是A model of saliency based visual attention for rapid scene analysis，发表在1998年的PAMI上。
这篇文章基本奠定了显著度研究的基本思路，即： 特征提取—>归一化—>特征综合/显著度计算—>显著性区域划分/兴趣点标定 。
在最初的文章中主要采取启发式的方法提取特征，依据生物学研究，主要提取亮度、色彩、旋转一致性三种特征，得到三种feature map。随后这些feature map被归一化以便综合，综合方法是简单的相加。从综合后的saliency map上提取前N个峰值即为寻求的interest point。
随后的很多研究都采取了这样的框架，针对特征提取/特征综合等等不同的阶段分别进行优化。
例如这篇：J. Harel, C. Koch, &P. Perona. Graph-based visual saliency. Advances in Neural Information Processing Systems, 19:545-552, 2006.
假定仍采用原先的特征提取方式，但是 综合阶段使用的不是线性组合而是马尔科夫随机场 ，获得了比Itti更好的效果。
另两篇Xiaodi Hou, Jonathan Harel and Christof Koch: Image Signature: Highlighting Sparse Salient Regions (PAMI 2012)
和R. Achanta, S. Hemami ,F. Estrada,& S. Süsstrunk, Frequency-tuned salient region detection. IEEE International Conference on Computer Vision and Pattern Recognition, 2009, pp.1597-1604.
则是定义了一种新的底层特征提取方法，计算saliency的过程仍采用马尔科夫随机场。
采用条件随机场的比较著名的一篇文章应该是Tie Liu, Jian Sun, Nan-Ning Zheng, Xiaoou Tang and Heung-Yeung Shum. Learning to Detect A Salient Object. In Proc. IEEE Cont. on Computer Vision and pattern Recognition (CVPR), 2007.
引用665次！作者建立了一个10k级别的数据库（手工标注方框），并提出了系统的评估方法。
2007年，侯晓迪另辟蹊径，提出了一种完全不同的思路，称为频域残差法。这种方法不考察前景的特点，反而去研究背景都具有那些特点 ，从图片中提取跟这些特点不符的就是interest point。
其考察背景特征的方法是计算图片的log频谱，发现对于自然图片，其曲线应该与1/f成正比。因此只需从待考察频谱中减去基准频谱，剩下的就是需要关注的部分。
R. Achanta, S. Hemami ,F. Estrada,& S. Süsstrunk, Frequency-tuned salient region detection. IEEE International Conference on Computer Vision and Pattern Recognition, 2009, pp.1597-1604.
在频域残差法的基础上，复旦大学有人提出了利用 相位谱 的方法。相位谱就是仅仅保留频谱分量的符号而不保存其值，这样可以获得更高的计算效率。
在获得每个点的相位谱之后，两点之间的距离简单地用hamming距离表示，随后采用条件随机场进行优化。其文章发表于2008年CVPR。
Chenlei Guo, Qi Ma, Liming Zhang: Spatio-temporal Saliency detection using phase spectrum of quaternion fourier transform. CVPR 2008
同样采用相位谱的还有M. Holtzman-Gazit, L. Zelnik-Manor and I.Yavne, " Salient Edges: A MultiScale Approach", ECCV 2010 Workshop on Vision for Cognitive Tasks.
不同点是，他们还对图片提取了多种分辨率。其思想是， 无用的背景在多种分辨率下应该是相似的，而有用信息则只出现在某几层中。
同一拨人还做了大量细致的工作。S. Goferman, L. Zelnik-Manor, and A. Tal. Context-Aware Saliency Detection. CVPR 2010.
这篇文章中，他们提出应当同时考虑局部信息和全局信息，例如 注意力应该集中在某些特定区域而不是分散，距离视觉焦点更近的点容易被观察到 等等，效果拔群。
采用底层特征和高层（全局）特征结合方法的还有Tilke Judd, Krista Ehinger, Frédo Durand, Antonio Torralba.Learning to predict where people look,International Conference on Computer Vision, ICCV 2009.
这篇文章中，他们提取了三个层次的特征：一般的底层特征，自然场景中的地平线，人脸检测（采用V-J算法）。
以上是比较主流的做法。其余还有一些人，例如Xiaohui Shen and Ying Wu, "A Unified Approach to Salient Object Detection via Low Rank Matrix Recovery", in IEEE Conference on Computer Vision and Pattern Recognition (CVPR)(Oral), 2012.希望通过寻找图像在特征空间中的有效表示（可以将图片信息简洁的分为无用部分+有用部分）来解决问题。
Chuan Yang, Lihe Zhang, Huchuan Lu, Minghsuan Yang, Saliency Detection via Graph-Based Manifold Ranking, CVPR 2013.则希望通过流形嵌入解决问题，用到了大量的数学推导（原谅我这两篇都没看懂。。。）。
总结：从近几年的趋势来看，纯数学的 频域方法似乎没什么潜力 。人们更多的还是 关注有效的特征提取以及高层特征和底层特征的结合 。
saliency的问题具有特殊性，因为我们容易给出的ground truth是0或1,而不是0-1之间的连续值。这就让神经网络在这里难以训练，相反有的借助SVM的方法（Tilke Judd, Krista Ehinger, Frédo Durand, Antonio Torralba.Learning to predict where people look,International Conference on Computer Vision, ICCV 2009.）效果不错。

学习算法在这里发挥的作用似乎不是很大，可以从高层起到一些辅助作用（例如特定的类别和目标检测），但不本质。

Hello TiMe

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
图像显著度（saliency detection）研究现状调研

已下博文转自 http://blog.csdn.net/huangbo10/article/details/19788547?utm_source=tuicool关于显著度的研究是从生物研究发展而来，早期比较重要的工作是C.Koch与S.Ullman做的，时间可以追溯到1985年。显著度的获取方式主要有两种：自上而下，从高层语义入手，其实目标检测等等也可以归入这一类中；更普遍的是自下
复制链接

扫一扫

专栏目录