Adaptive Affinity Fields for Semantic Segmentation
本文没有提出新的框架,主要工作是提出了新的学习思路和loss:Affinity及AAF。
目前的问题:
目前,在语义分割的任务中,当有较大的训练数据和更深入、更复杂的网络架构,基于像素的分类方法在前景像素和背景像素接近或混合在一起时,从根本上缺乏空间分辩能力,即当前景的视觉证据较弱时,分割效果较差。
随着越来越强大的像素分类器和通过条件随机域(CRF)或生成对抗网络(GAN)合并结构先验,语义分割已经取得了很大的进展。
CRF通过视觉外观的相似性(如原始像素值)来衡量像素之间的标签一致性。通过消息传递算法求解最优标记。CRF可以作为后处理步骤,也可以作为深度神经网络中的插件模块。除了耗时的迭代推理程序外,CRF对视觉外观变化也很敏感。
GAN是最近在神经网络输出中加入结构规则的一种替代方法。具体来说,通过一个鉴别器网络测试预测的标签映射是否与训练集中的真值标签映射相似。GAN是出了名的难训练,尤其容易出现模型不稳定和模式崩溃的情况。
相关工作:
我们提出了一种更简单的方法,只在训练时学习了语义分割的空间结构。我们提出了自适应亲和域(AAF)的概念来捕获和匹配标签空间中相邻像素之间的关系,而不是使用CRF或GAN在单个像素上强制使用语义标签和在相邻像素之间匹配标签。
本文中提出的AAF和CRF以及GAN进行比较,数据集选用Cityscapes,评价标准为mIOU: