论文链接
动机
目前加速实时语义分割的方法:(1)限制输入图片的分辨率以减少计算复杂度,但导致了空间细节信息丢失 (2)减少网络通道数,但减弱了空间特征信息容纳能力 (3)减少下采样操作,使得网络结构更加紧凑,但是导致感受野难以覆盖大目标。而当前广泛使用的U-shape structure虽然可以减少空间细节损失,但是有两个缺点:(1)额外的高分辨率的特征图的计算减低了模型速度 (2)大部分在减少通道数或减小输入图片分辨率时损失的空间信息难以通过跳跃连接低层信息进行恢复
贡献
提出Bilateral Segmentation Network (BiSeNet),包含Spatial Path (SP) and Context Path (CP)。SP中只有3个卷积层获得边长为原图边长的1/8的特征图,用于保留丰富的空间信息。在CP中,在xception网络的尾部添加了全局平均池化层,以获得最大的感受野。
算法
Spatial path:保存原始图片的空间尺度并编码丰富的空间信息
Context path:使用轻量级的xception网络,加上全局平均池化,从而得到大的感受野,编码高层的语义特征。最后融合全局平均池化后上采样的特征和xception的特征。
Attention refinement module:使用全局平均池化捕捉全局语义信息并计算一个注意力向量引导特征学习,计算量小
Feature fusion module:SP和CP的特征信息是不同的,所以不能简单地element-wise sum。SP中是低层抽象信息,CP中是高层抽象信息,所以设计了FFM进行两个不同特征的融合
损失函数:除了分割损失函数,在CP添加了两个辅助损失函数用于深度监督
实验
数据集
Cityscapes,CamVid,COCO-Stuff
评价指标
参数总量、FPS、mIoU
结果
优缺点
优点
1.提出了spatial path和context path结合的思路
2.与其他一些实时分割方法相比,速度更快,效果更好
3.实验非常充分
缺点
1.没有解释清楚两个辅助损失函数的作用,也没有对这两个辅助损失函数的效果做比较实验
2.图中左边的两个箭头没有解释清楚是什么操作,如果是输入FFM进行concat,应该需要upsample
反思
1.在语义分割中使用辅助的损失函数是否能够提高效果?
2.既然可以分为spatial path和context path,是否可以分出更多path进一步提升效果?