这篇文章提出一种与类别预测相关的网络结构,使得在一定程度上降低了分割任务的难度,同时提高了小物体的分割精度。
提出上下文语义编码模块与类别预测模块,在某种程度上解决或减轻了分割问题中类间样本不均衡的问题,而这类问题在以像素为度量的损失函数中是非常常见的。
在本文中,我们通过引入上下文编码模块来探索全局上下文信息在语义分割中的影响,上下文编码模块捕获场景的语义上下文并选择性地突出显示与类相关的特征图。
在标准的训练过程中,只应用具体的每个像素的分割损失,并不很强调使用场景的全局上下文信息。
这里引入一种语义编码损失函数SE-loss,使得训练更加系统化。
这种损失函数会预测场景中出现的物体类别,来加强网络学习上下文语义信息的能力。
不像针对每个像素的损失函数,SE-loss对每个物体,不管大小,都是同等对待的。因此,我们发现在使用这个损失函数后,好多小物体的分割效果变好了。
这其实是一种解决或减轻类间样本不均衡问题的方法,这类问题在分割任务中是非常常见的。
这里提出的上下文编码模块与语义编码损失函数SE-loss,在概念上是直接了当的,并且与之前的FCN方法都兼容。
本文的第二个贡献就是设计并实现一种新的语义分割架构,Context Encoding Network (EncNet).
从图中可以看出,这个网络结构中,对前面网络提取出的丰富的特征使用全连接层FC进行编码,其中一个编码分支直接送给SE-loss,进行场景中出现类别的预测;另一