Small Object Sensitive Segmentation of Urban Street Scene With Spatial Adjacency Between Object Classes论文阅读
论文作者:Dazhou Guo , Ligeng Zhu, Yuhang Lu, Hongkai Yu, and Song Wang
本文想法来源
目前使用深度学习进行语义分割的方法,很难准确分割出相对较小的物体,原因是在分割损失中,大物体的贡献更大。本文提出一个基于边界的指标,对目标类别之间空间相邻性进行测量,再把这个指标应用于分割的损失函数当中。
目前解决方法的缺点
- 增加输入图像的比例,提高小物体的分辨率或者生成高分辨率的特征图。
One common strategy towards improving the segmentation accuracy of small objects is to increase the scale of input images, to enhance the resolution of small objects, or to produce high-resolution feature maps.
缺点:通常需要数据增强或者提高特征维度,从而带来更大的时间开销。 - Post-processing(后处理)
As postprocessing is not integrated into the segmentation network, the network cannot update its weights according to the post processed results in the training phase.
缺点:不能更新网络的训练权重,是由于后处理是没有集成在分割网络当中的。
本文主要贡献
- 提出了ISBMetric,用于测量目标类别间的空间相邻性。该模块对对象尺寸引起的偏差具有鲁棒性,使较小的目标也能对总体损失作出更大的贡献。
- 提出了ISBEncoder,用于城市街道场景分割中具体实施ISBMetric。提出的ISBEncoder能够很容易地与很多SOTA分割网络进行结合。
- 提出的方法实现了小对象类别分割精度的大幅度提升和大对象类别分割精度的提升,同时无需在部署过程中额外增加时间成本。
本文具体方法
ISBMetric
建立一个nc×nc的矩阵,用于存储两个类边界的关系。对于矩阵中,每一个位置(i,j)存储的是i类目标与j类目标边界交集的长度与i类目标周长(包括内周长和外周长)的比值。如图例子所示,1,、2、3、4四类目标的尺寸分别为:100×100、25×25、25×100、175×175。
- (a) GT图像中计算ISBMetric,对于1物体来说,周长为400,2物体周长为100,所以(1,2)的值为100/(400+100)=1/5;
- (b) case 1的操作为:把3的预测右移3个像素,把2的长宽分别扩大一倍,即50×50。此时,2的周长为200,所以(1,2)的值为200/(400+200)=1/3; 由于3物体与1物体没有共同边长,所以(1,3)的值为0;
- © case 2的操作为:无法预测2物体,所以第2列为[0,0,0,0]。
ISBEncoder
目的:把ISBMetric应用到网络当中。
挑战1:需要把预测的物体类别概率转换为离散的类别集合,以便确定类别的边缘。
解决办法:找到同一点上预测概率最大的类别作为该点的类别预测值,公式如下,其中,spred(c,x,y)为点(x,y)预测为类别c的概率,c*则为该点的类别预测值。
挑战2:使用基于梯度下降的优化方法进行网络参数更新的时候,必须存在网络参数的前向传播函数的偏导数,但是上述公式对c的导数不存在,因此ISBMetric loss无法回传,所以无法直接部署在分割网络中。
解决办法:设计一个ISBEncoder来作为原分割网络的额外组件,用于计算ISBMetric,再把分割网络的loss和ISBEncoder的loss进行相加,共同监督网络的训练过程。
具体ISBEncoder设计如下: