传统的图像分割技术
取其精华去其糟粕
基于传统的图像分割算法目前较多的是作为预处理(简单去噪)或者后处理(比如条件随机场和分水岭算法平滑边界轮廓)的一种手段去使用
自全卷机神经网络(Fully Convolutional Network, FCN)
应用在场景解析任务
长跳跃连接采用相加的操作然后直接一步到位上采样到原始空间分辨率
U-Net
应用在医学图像分割任务
长跳跃连接方式是通过拼接操作后再用卷积进行更细致的特征融合,然后不断细化,使其整体结构更加对称
提升语义分割性能的因素
最关键的因素便是上下文信息
有效感受野则大致决定了网络能够利用到多少上下文信息
上下文信息
局部上下文信息
由于传统的卷积运算一次仅能处理一个局部领域,这大概率会导致大尺寸对象分割的不完整性
全局上下文信息
早期语义分割网络干的事情
早期的语义分割网络大都是围绕如何在保证效率的同时尽可能的捕获有效的上下文信息开展的,而主流的方法主要有两种:扩大感受野或引入注意力机制。
扩大感受野的方法主要有以下几种方式:
-
使用大卷积核的
GCN
等方法; -
使用空洞卷积的
DeepLab
等方法; -
使用池化操作的
PSPNet
等方法;.
局限性:
-
使用不同大小的卷积核组合,一方面参数量过大容易导致多拟合,另一方面理论感受野远小于实际感受野;
-
使用空洞卷积虽然可以保留完整的空间信息,然而会引入额外的计算量,容易引起局部领域的信息丢失,同时,当扩张率选取不恰当时还会造成网格(棋盘)效应;
-
使用池化操作虽然简单高效,但容易因为降采样导致小尺寸目标丢失;
引入自注意力机制的方式
-
结合通道和空间双注意力的
DANet
等; -
借鉴自注意力机制的
NonLocal
等;
优点:从不同维度去考虑如何建模
长跳跃连接
原始的(短)跳跃连接操作缓解梯度弥散的动机
语义分割任务本身是一种密集型分类预测任务
引入长跳跃连接,可以实现不同层级特征之间的信息融合,从而提取到更具有判别力的特征
不同抽象层级的特征具有不同的独特语义表征
一般而言,浅层特征注重边缘、纹理等空间细节,但缺乏高级语义;而深层特征具备精确的高级语义信息,但缺乏空间细节信息。