http://www.bfcat.com/index.php/2012/05/cvpr2012-ali-borji/
Ali Borji是Laurent Itti的学生,他在这一年中就显著性方面发表了5篇高水平的国际会议。其中在CVPR2012上面有三篇第一作者的文章。先看一下题目:
1. Boosting Bottom-up and Top-down Visual Features for Saliency Estimation,(PDF) Ali Borji;
2. Exploiting Local and Global Patch Rarities for Saliency Detection,(PDF) Ali Borji, Laurent Itti;
3. Probabilistic Learning of Task-Specific Visual Attention,(PDF) Ali Borji, Dicky Sihite, Laurent Itti;
先看第一篇:
这篇文章将多种底层和高层特征进行组合来实现显著性检测。用到的底层特征包括颜色,方向,以及一些现有的底层显著图,例如GBVS,Itti模型等。高层特征主要是目标级别的,包括了行人,人脸,车辆等。
在训练数据集上提取出各种底层特征以及显著图(总共30种特征)以及几种高层检测器计算出的概率映射图以后,他使用采集到的眼动数据作为groundtruth来提取正样本和负样本, 像素级的。
这篇文章的主要贡献就在于作者测试了多种分类器对于显著图计算的贡献。他将数据集分为N组,然后使用leave-one-out的方式进行训练和测试。测试的分类器包括:线性回归,线性核的SVM, 以及boosting方法。从实验结果对比来看,非线性的boosting方法取得的效果是最好的。
在文章的最后一部分,作者就使用boosting方法进行了测试以及和其他方法的实验对比。
文章的贡献主要在于不同分类器效果的测试。三篇里只有这篇文章没有署Itti的名字,不知道是不是Itti没看上这个工作,不愿意署名(个人猜测)。
文章的流程图如下:
最后看第三篇:
第三篇的方向其实我不是很关注,因为是和任务相关的,任务驱动型的显著性检测。就全文来看,这篇文章主要是针对驾驶游戏中的连续图像序列。
论文依然是将底层显著性和一些先验知识进行融合。用到的先验知识包括场景的上下文,上一帧关注的区域,以及机械信号(方向,踏板,转向信号等)。作者在文章中对引入不同先验知识的效果进行了分别实验,包括:1. 仅适用当前帧的场景信息;2. 加入上一帧对当前帧的预测; 3. 加入外部驾驶信号。
对于每一种方法,作者均建立了一个简单的贝叶斯模型(见论文)。
模型中,场景信息(Gist)的概率 P(Gi|Xi) 通过高斯核密度估计的方法计算。即
最终的实验结果比较有意思,很多游戏中的实验:
<a href="http://www.bfcat.com/wp-content/uploads/2012/05/s3.jpg" class="cboxElement" rel="example4" 622"="" style="text-decoration: none; color: rgb(1, 150, 227);">