文章链接:https://arxiv.org/pdf/1712.00213.pdf
主要方法介绍
文章主要贡献:
- 提出了一个多特征融合模块(MFM),该模块使用设计好的空间感知池化SAP来扩大感受野,并且在保持较小的计算成本的同时恢复丢失的空间信息。
- 提出了类边界监督(CBS)来解决物体边缘相关空间信息的丢失。
- 在两个公开数据集上的实验结果验证了文章所提方法的有效性
网络结构:
文章用Resnet-18 作为backbone,一共四个残差块,在每个残差块下面都连接着SAP池化模块,记残差块的输出为:
其中,H为图片的高,W为图片的宽度,C为通道数,mi表示步长,将池化操作记为σ_j,定义池化步长为s=2^j,kernel为k=2*s+1,j的取值为[1,5]:
其中:
代表第i个残差块的第j个输出。
MFM模块:对每个残差块输出的feature map做SAP池化(包括no pooling),每个feature map经过SAP之后会有6个输出,第一个残差(1/4 input size)只有5个输出,因为网络使用的是原图的1/8来直接upsample得到原图大小的,也就是所1/4没用,所以第一个残差块不做no pooling,而直接进行其他池化操作。将相同分辨率的feature map进行contact,并做dwc卷积。
class boundary supervision模块:在该模块中,作者提出了两个独立的上采样分支,这两个分支在上采样过程中互相不交换信息,每个上采样分支的每个stage有两个输入:一个输入来自MFM融合的特征,一个输入来自previous stage的upsample结果。这两个分支的区别是,其中一个分支是有监督的(用ground truth中的物体边缘来进行监督,并且这个边缘是带有类别信息的,例如图中的树是同类别,因此树的边缘的颜色是相同的,表示同类别),以提取边缘相关信息。
最后将两个上采样分支的feature map进行contact,在进行dwc卷积,最后upsample至原图大小。
注:
作者认为用1/4的size进行upsample会增加计算成本,并且文章提出的多特征融合和CBS已经提取到了足够丰富的信息来完成分割,因此用1/8的size进行upsample就够了。
实验结果
MSFNet在Cityscapes test上77.1%mIoU/41FPS(注意是1024*2048),在Camvid test上75.4 mIoU/97FPS!是目前FPS和mIoU trade-off最强的实时语义分割网络!