Pyramid Scene Parsing Network
Abstract
作者利用金字塔池模块和提出的金字塔场景解析网络,利用基于不同区域的上下文聚合来挖掘全局上下文信息的能力。
Introduction
作者讲述了基于语义分割的场景解析的难度与场景和标签的多样性密切相关,同时介绍了对于最先进的场景解析框架大多基于全卷积网络,它不仅提出了金字塔场景解析网络,在基于深度监督损失为深度ResNet开发了一种有效的优化策略,也为最先进的场景解析和语义分割建立了一个实用的系统,其中包括所有关键的实现细节。
Related Work
主要回顾了场景解析和语义分割任务的最新进展。介绍了除了基线网络是FCN和扩展网络外的其他工作主要从两个方向进行,其中一个方向是多尺度特征集成,另一个方向是基于结构预测。
Pyramid Scene Parsing Network
Important Observations
作者通过ADE20K数据集,检查了一篇论文提供的FCN基线的预测结果,总结了复杂场景解析的几个常见问题,得出了许多错误部分或完全与上下文关系和不同的接受野的全局信息有关的结论。因此具有合适的全局场景级先验的深度网络可以大大提高场景解析。
图1 在ADE20K数据集上观察到的场景解析问题
Pyramid Pooling Module
主要介绍了金字塔池模块,用于在深度神经网络的final-layer-feature-map上进行全局场景先验构建。
Network Architecture
主要讲述了金字塔场景解析网络。
图 2 PSPNet
Deep Supervision for ResNet-Based FCN
对于基于ResNet的FCN,这种深度监督训练策略在不同的实验设置下广泛有用,并且可以与预训练的ResNet模型一起工作。
Experiments
作者将PSPNet作用在三个不同的数据集上对其进行评估,包括ImageNet场景挑战、PASCAL VOC语义分割和城市场景理解数据集,同时将结果与FCN、SegNet、DilatedNet和CascadeNet进行了分析与对比。
Concluding Remarks
作者提出了一种有效的金字塔场景解析网络,同时基于ResNet的FCN网络提供了一种深度监督优化策略。