显著检测——Graph-Based Visual Saliency
Harel等人2006年在NIPS上发表了一篇基于图的显著检测的文章,这篇文章基于Itti方法的基本框架和原理,同时又用马尔科夫随机场的模型来模拟人在观察图像时复杂的视觉转移过程,取得了很好的效果。文章的出发点很新颖,而且和生物的视觉注意方式有着很强的相似性,在现有方法中是一种有代表性的方法。
文章将显著检测的一般过程划分为三个阶段:
1.特征提取阶段。在图像平面的各个位置上提取出对显著检测有贡献的特征向量。
2.显著图激活阶段。利用特征向量经过特定的算法形成激活后的显著图。
3.归一化和融合。将激活图归一化并将所有归一化后的激活图融合成为最终的显著图。
这三个阶段和Itti最开始的那篇文章所提出的框架是一致的,即寻找合适的特征、用检测方法形成各个显著图和将所有显著图融合为最终的显著图。
GBVS的第一个阶段沿用Itti所提出的方法形成特征图,第二个阶段的具体内容如下:
对于每一幅特征图,各个位置之间的状态转移矩阵与它们的空间位置和特征的不相似程度有关。两个位置的特征越不相似则它们之间转移的可能就越大,因为视觉总会往和目前位置不同的位置转移以期获得更加丰富的信息。两个位置之间的空间距离越小,则它们相互的转移可能就越大,因为视觉的转移或跳变更易于到目前位置的周围。基于此而构造的转移权值为
其中d是两个位置的特征距离,F为两个位置的空间距离,具体表达式如下
将各个位置的初始状态设为随机,结合以上的状态转移矩阵,经过一定次数的迭代之后便可以达到收敛,形成各位置的终态。这个最终的状态便是所得的显著子图。
第三个阶段的融合过程和第二个阶段类似,初始状态为第二阶段的终态,状态转移矩阵考虑了显著位置所具有的局部聚集性,设计了各个位置的连接权值,如下所示
A为到达位置的初始状态,即它的显著程度,F是两个位置的空间距离。这样做是为了将显著mass聚集到显著值大的地方,从而避免了分散的结果。同样经过若干次迭代之后算法会收敛到一个稳态,这个稳态便是第三部的显著图。最后经过平滑之后就得到了最终的显著图结果。
实验结果:
在MSRA数据库上用GBVS方法对1000幅图像进行了测试,以下是得到的两幅显著图示例。
可以看出GBVS具有很好的检测性能,而且在不同环境下都有很准确的定位能力,不依赖于图像的边缘信息。在计算上比其它方法更为耗时,这是由于马尔科夫模型的迭代过程需要花费一定的时间。