这是一篇ICCV2019的语义分割文章,其核心思想是采用baseline生成的粗糙特征图作为attention指引分割输出结果,其中的idea有些像张航提出的Context Encoding(EncNet)。伴随着提出的两个新模块,分别是 Class Center Block(CCB)和Class Attention Block(CAB)。
Abstract
为了适应每个像素点的不同类中心(class center),即本论文从类别的角度看分割,并且从 coarse-to-fine的角度出发,提出了Attentional Class Feature Network(ACF)模型,在Cityscapes数据集上达到了state-of-the-art的表现—81.85% mIoU。
Introduction
全局适应性池化 global adaptive pooling (GAP) 广泛被应用在获取丰富的全局信息,在不同空间策略上获取了丰富的上下文信息( contextual information)。但是当计算上下文信息时,这些操作并不区分每个像素点究竟归属于哪一类。因此,本文提出了class center block模块来解决这个问题。本文还提到了注意力机制问题,本文直接采取CNN中baseline的粗糙特征图作为语义信息的attention指引像素点的分类,这也是本文提出的第二个模块,即class attention block(CAB)。
文章的贡献总结如下:
- 第一次呈现class center的概念,代表类级上下文信息,帮助像素的不同类别在整个的性能的表现。
- 提出了注意力类特征(attention Class Feature, ACF)模块,使不同像素自适应地聚焦于不同的类中心。
- 提出了一种coarse-to-fine的分类结构——注意类特征网络(ACFNet),利用类级上下文改善语义
分割。 - ACFNet在Cityscapes数据集上达到了81.85%的mIOU。
二、Method
Class Center Block(CCB):
Class Attention Block(CAB):要利用每个类别的上下文信息,就要直到所有像素位置属于哪个类别,这在训练时是没有问题的,因为有Ground Truth,但是在测试的时候即实际应用时,没有Ground Truth,要如何来获得每个像素位置的类别信息呢?很自然而然地想到可以先进行一次粗分割得到一个粗略的预测图,在利用该预测图来计算近似的class center,后面再利用class center实现精细的分割。
作者认为,对于一个给定的像素p属于A类,模型错误分类为B类。但如果模型知道其所代表的类中心A(浅蓝色区域)和B(淡黄色区域),模型可以发现p更有可能来A自一个而不是B。因此可以纠正错误的预测。可以理解为最近邻的分类,这里提出的是class center的概念。
Experiments