本文汇总一些阅读过的轻量级语义分割模型相关论文,并记录一些心得感想。
BiSeNet (V1)
速度与精度的权衡以及语义信息和空间细节的权衡是轻量级语义分割模型设计领域永恒的话题。对于语义分割任务而言,我们需要足够的空间上下文来判别物体的语义类别,同时也希望有足够多的空间细节来实现物体边缘等位置的精细化识别(这点与通常的分类任务不同)。为了解决空间信息的缺失问题从而提升精度,此前的工作多半受 U-Net 启发,在网络的宏观设计上采用 U 型结构。然而,完整的 U 型结构在带来丰富空间信息的同时导致较大的计算量,不利于模型的轻量化。BiSeNet 的作者另辟蹊径,设计了一种双分支(名称中 Bi- 的来源)的结构以提取不同感受野的特征,并通过特征融合模块 FFM 对两路特征进行融合。
BiSeNet 的思路其实十分直接,既然空间细节和语义信息我都想要,那么何不使用两个分支,分别侧重于提取这两方面的信息呢?从这一点上来说,这和视频理解领域的 Slow-Fast 网络思想相近。模型整体结构如下,在一个比较整洁的框架中实现了一个实用性很强的轻量级语义分割方法。