观看地址
介绍
什么是显著性目标检测
一张图片里最吸引注意力的部分就是显著性物体,其实是模拟人的一个注意力机制。目标是希望通过计算机的方法让我们自动定位和模拟人的这种感知能力,从而去定位场景中的一个让人感兴趣的目标
根据不同的输入会有不同的变体(显著性目标检测家族)
- 在RGB的基础上引入一个景深信息——RGBD显著性目标检测
- 相关性的一个图像组的数据,引入图间关系——协同显著性目标检测
- 引入运动、帧间关系等——视频显著目标检测
- 引入多视角的关系,形成一个相机阵列来计算光场图像中的显著性物体——光场显著性目标检测
- 摄像机架设到天上,俯视成像——光学遥感图像显著性目标检测
目前这个领域的挑战
- 成像条件不同,从天空往下拍的过程中会存在很多干扰,比如云层、遮挡,光照(一个区域亮另一个区域暗)、重影(光照导致),并且场景范围比较宽大的,也就存在目标场景、背景复杂,比如树木,阴影这样的干扰。高空往下拍,目标整体的尺寸大小会参差不齐,比如拍的体育馆,体育馆比较大,容易检测,拍的舰船,舰船比较小,不容易检测,尺度变化是非常大的。
- 场景范围足够大,比如沙漠上去拍,就可能不存在显著性目标
技术方案
论文1(2019)
这篇论文是第一篇深度学习在遥感显著性检测的论文,并构建了第一个开源数据集ORSSD
主要贡献
- 双流金字塔结构,L形状。学习互补特征。输入尺寸进行不同程度的下采样,让场景能够去捕获不同尺寸的特征图信息。
- 嵌套连接的编码器和解码器结构,V形状。在编解过程中实现特征筛选,而不是一股脑直接concat
论文2(2021)
论文1的继承,想法是传统是特征由前一层往后传,但是真的有必要去传这样所有特征吗,特征融合完后可能存在一些冗余,为了更高效的传递论文提出了注意力密集传递,扩充了第一个数据集并命名为EORSSD
主要贡献
- DAF(密集注意力流)结构可以进一步解耦成特征提取以及全局上下文注意力这么一个模块
- 不光结合多尺度和多层次的线索,还产生了流动dense的结构来实现不同层次之间信息的高效的一个传递和交互。
- GCA(全局上下文注意力)模块可以拆分为GFA(全局特征集成)和CPA(级联金字塔注意力)模块,GFA主要是编码全局上下的一个信息,去解决目标检测不完整的问题。CPA主要解决目标尺度多样化的问题。在遥感显著性目标检测中,一些细长的河流容易检测不全,被打散,原因可能是局部感受野非常难去捕获到一个区域与另外一个远端区域之间的关系。也就是这个卷积核的感受野太窄了,是在一个有限的范围去学习特征。GFA通过建模长程依赖关系来计算,概念是一个目标如果是显著的,那么其和目标整体内部的特性是相近的,也就是说一个像素点的位置和其他所有像素点位置进行一个相关性的求解后,得到全局上下文这样的一个依赖关系矩阵器,用这个信息来对原始特征进行加权,把全局上下文的关系编码到特征里去。
通道注意力,来得到更紧致的通道信息
空间注意力,来强调重要的区域位置对应在哪里
论文3(2022)
本片论文在全局上下文的计算方式使用的是关系感知,关系推理来做,引入graph(图推理)这种解决方案
主要贡献
- 图推理是在高层后三层进行实现,并且不止局限于空间维度上的推理,其在通道维度上也实现了推理。把一个特征建模成多个节点,通过把不同节点之间进行关联之后,去学习边上的一个权重,模拟特征节点之间的相似性,进而去推断去实现推理这个功能。
- 解码过程中在靠近结果输出最后两层中更加需要从编码器提取有效信息来对细节进行恢复,对结果进行修正,去抵抗目标尺寸变化的问题。通过attention图去挑选一些有用信息来指导我们的解码。一个分支是注意力用不同大小的卷积核,另一个分支是卷积用不同大小卷积核再过统一核大小的注意力块。相当于通过穷尽法来模拟得到多尺度注意图的这种方式。
未来展望
- 根据新的数据集做更好的研究,更挑战的内容
- 学习方法不一定要全监督,可以用弱监督,小样本的方式,来摆脱对GT的依赖
- 做一些扩展,比如instance level,做一个即插即用的模块改善显著性检测,进一步提升性能