序言:写一些关于显著性检测的归纳与理解,重在归纳与分享。本文主要探讨bottom up模型,Top down模型研究较少,且难以解释。若有纰漏,欢迎读者批评指正!
1.概述
这里主要探讨bottom up模型
显著性最初起源于Itti1998年的论文,始于人类的视觉系统,此后Itti变体衍生出了许多工作。这一类主要在于若干种特征,如颜色、亮度、方向子特征图
,并基于中央周边操作
实现局部的对比度,最后加权融合(存在黑点)。BU被广泛认可。
侯晓迪基于频域分析,写出了短短的11行代码,开创了变换分析
实现显著性的先河。然而我认为这一系列方法均缺少可解释性,显著性由数值上的少数决定。
我认为此后,有一类纯粹基于统计构造的数学模型,如LC(这个现在看来水的不行),如洛桑联邦理工软对的AC算法、南开程明明团队的HC\RC,甚至基于主成分分析PCA的方法,多层级的HS算法,这些我的理解是以(多尺度)局部(颜色)对比度、全局(颜色)对比度
甚至引入了空间约束项
来构造模型,显然不够全面,使用范围肯定有限。稀疏采样核密度估计FES方法。再往后,大连理工团队卢湖川团队以SLIC超像素分割
、图论
、贝叶斯模型
、流形排序MR
、马尔科夫链
甚至条件随机场CRF
等为工具的方法,这类方法同样是基于若干个特征来构造模型,这类方法数学工具很强大,能取得比较好的效果。还有以低秩矩阵分解SMD和SF为代表的的纯数学方法。但到头说来,无论如何,这类方法的生物可解释性很弱。
说到生物可解释性,目前我理解有两类角度。一类是Itti模型,以多特征通道,如宽谐波LMSY I
、RG BY拮抗通道
以及中央周边操作
为生物上的解释点。另外一类是以AIM、SUN算法为代表,这类以稀疏编码SparseCoding
、主成分分析ICA
、高斯差分滤波核DoG
为工具;这类方法的分析基础是概率论或信息论,以贝叶斯模型推导为基础。基于稀疏编码需要以前景和背景字典进行训练,以重建误差进行表达,有的也用来做Top down显著性,感觉可扩展可适用性很强,但是入门难度较高。显然,两者虽然可生物学解释,但绝对不够全面,毕竟缺少空间约束,无法实现精准的检测。性能什么的和超像素的方法比不了。
最后,就是基于ML和DL的方法了,生物解释太复杂,干脆黑箱不解释得了。ML方法里最杰出的工作当属DRFI,基于多特征,分类训练吧大概,性能着实不错。此后有一列基于全卷积神经网络FCN的方法,这也是目前刷榜的主流方法。
总而言之,我的理解里大概可以分为:
-
Itti模型及延伸
Itti\GBVS -
基于变换分析
SR\PFT\PQFT
DSR\ -
基于统计与数学
简单统计:LC\FT\AC\HC\RC;HS;SS\COV
高阶数学工具:MR\BL\GS\PCA等;
纯数学模型:SF、SMD等 -
基于信息论
AIM、SUN -
基于机器学习或深度学习
DRFI、DL方法不做引出
2.杰出研究团队归纳
-
Itti团队
代表作者:Itti Koch;侯晓迪
代表作及延伸作品:Itti,GBVS,SR,ICL -
瑞士洛桑联邦理工ILRL小组
代表作者:Achanta
代表作:FT、AC、MSSS、FASA -
南开大学 程明明教授团队
代表作者:程明明,范登平
代表作:HC、RC、 -
大连理工大学 卢湖川团队
代表作者:卢湖川 -
王文冠