【SOD论文解析】CTDNet为什么那么快？

攻城狮QAZ

已于 2023-05-15 22:10:55 修改

阅读量531

点赞数 7

分类专栏：显著性目标检测文章标签：计算机视觉深度学习目标检测人工智能

于 2023-04-28 13:48:57 首次发布

本文链接：https://blog.csdn.net/qazwyu/article/details/130261611

版权

1 篇文章 0 订阅

订阅专栏

论文地址：https://drive.google.com/file/d/1ysATpf5SKPRegyGDpYsJSngM0_I09XWk/view
源码地址：https://github.com/iCVTEAM/CTDNet

说明：本博客并非单纯对英文文献进行翻译，更多是加入个人实践中的认知与理解，更多是从算法实践落地角度去思考。个人才疏学浅，难免有错漏之处，敬请谅解。

该论文是2021年ACM MM会议的oral文章，由北航和鹏城实验室提出。

显著性目标检测（salient object detection，SOD），是分割出图像中视觉最显著的目标或者区域。可以简单理解为前景/背景分割。
编码器-解码器架构（Encoder-Decoder Architecture）是目前图像分割领域最常用的网络架构，如FCN，SegNet等。在Encoder中，特征图尺寸逐渐变小，提取更高层次的语义信息；在Decoder中，特征图尺寸逐渐变大，恢复细节信息。

作为一种有效的预处理技术，SOD广泛应用于计算机视觉的下游任务，如图像检索、图像跟踪、图像分割。
早期的SOD算法大多数基于人工特征，现在的SOD算法主要基于CNN。依靠强大的特征表达能力，SOD获得巨大进步。具体可参考2022年TPAMI的文章《Salient Objects in Clutter》，个人认为里面对SOD算法总结非常好。
论文地址：https://ieeexplore.ieee.org/abstract/document/9755062
目前的SOD算法，U-Shape结构使用最广泛且性能较好。U-Shape在解码器中逐渐恢复高分辨特征，通过top-down路径和横向连接的方式。

大多数SOD方法不能在效率和性能上获得较好的平衡。目前大多数模型不断增加网络的深度和宽度，以获取更好的性能，导致巨大的计算开销，推理速度较慢。这些方法通常需要强大的主干网络和复杂的解码器。因此，这些模型很难在资源有限的环境下使用。
另外，U-shape结构存在很多不足，因此有较大提升空间。
a) 复杂的U-shape结构由于底层特征较大分辨率，增加了计算复杂度，降低速度。
b) 在下采样过程中，造成空间信息丢失，很难仅通过层级特征的合并恢复。
c) 在top-down路径上，高层特征的语义信息会被逐渐稀释，全局上下文信息也会被忽略，可能导致欠分割结果。

构建轻量化的、快速的、同时有较好性能的SOD模型。

抛弃传统的U-shape结构，在解码器部分，提出语义上下文、空间细节、边界信息分别处理，达到速度和准确性的较好平衡。
提出高效的、高性能的互补三边解码器CTD，包括语义路径、空间路径、边界路径三个分支，用于显著性检测。这些分支取自编码器的不同阶段，设计用于解决语义信息的稀释，空间信息的丢失，边界信息的损失。
为了让这三个分支特征互补，提出三个具体的融合模块。
a) 特征融合模型FFM，用于融合语义路径和边界路径的特征。
b) 交叉聚合模块CAM，用于融合语义路径和空间路径的特征。
c) 边界细化模块BRM，用于融合边界特征。
完整的网络结构如下图：