论文地址 :OCNet: Object Context Network for Scene Parsing
pytorch实现:PkuRainBow/OCNet.pytorch
1. 摘要
论文侧重于语义分割中的语义聚集策略,即不再逐像素的进行预测而是将相似的像素点聚集后进行语义分割,由此提出了目标语义池化策略,它通过利用属于同一物体的像素集合的信息来得到某一个该物体包含的像素的标签,其中像素集合被称为目标语义。
具体实现受到自注意力机制的影响包含两个步骤:1)计算单个像素和所有像素之间的相似性从而得到目标语义和每一个像素的映射;2)得到目标像素的标签。结果比现有的语义聚集策略例如PPM和ASPP这些不区别单一像素和目标语义之间是否存在属于关系的策略更加准确。
2. 简介
场景解析是计算机视觉中的基础议题并且对于诸如自动驾驶和虚拟现实等任务非常关键,在全卷积网络的方法之后,多种基于深度卷积神经网络的方法已经用于场景解析,目前主要包括两种主要的方法,第一种是通过提升特征图的分辨率来提升空间上的准确率,比如空洞卷积,另一种是利用语义信息来替身像素预测的鲁棒性,后者是该论文的工作方向。
现有的方法中,PSPNet将特征图分为多个区域,每个区域中的所有像素被视为这个区域的语义,ASPP则通过不同的空洞率来对多种像素进行采样,空间语义是属于不同目标的像素的混合,标签预测效果也受此局限。
图片中每一个像素的标签的是这个像素所在的物体的标签,受此影响,论文提出新颖的目标语义池化以根据目标语义来聚集信息,首先为每个像素计算一个相似性映射,相似性分数表明了像素和像素所在物体的标签一致的可能性高低,称为目标语义映射,如下图所示:
论文还提出了两个扩展,一个是Pyramid object context,其中空间金字塔的每个区域都进行一次目标语义池化;另一个是Atrous spatial pyramid object context,结合了ASPP和OC池化。
Pyramid Object Context. 将图像在四个缩放尺度上分成若干区域:1 x 1,2 x 2,3 x 3和6 x 6,然后在每个尺度上分别使用目标语义池化来更新特征图,然后结合。金字塔目标语义模块能够去除空间上相隔较远的像素的影响并加强相隔较近的像素的作用(属于不同类别的)。最终和输入特征图结合,这个方法被称为 Pyramid-OC,如下图所示:
Comination with ASPP 如下图所示:
网络架构,实验部分 结论 略欢迎关注 深度学习与数学 [每天获取免费的大数据、AI等相关的学习资源、经典和最新的深度学习相关的论文研读,算法和其他互联网技能的学习,概率论、线性代数等高等数学知识的回顾]