【阅读笔记】《Pyramid Scene Parsing Network》（PSPNet）

最新推荐文章于 2021-11-07 15:50:10 发布

ShuqiaoS

最新推荐文章于 2021-11-07 15:50:10 发布

阅读量685

点赞数

分类专栏：笔记图像分割

本文链接：https://blog.csdn.net/shuqiaos/article/details/89452453

版权

笔记同时被 2 个专栏收录

67 篇文章 3 订阅

订阅专栏

图像分割

25 篇文章 4 订阅

订阅专栏

本文记录了博主阅读论文《Pyramid Scene Parsing Network》的笔记，代码。更新于2019.05.08。

Abstract

本文中用金字塔池化模型和提出的金字塔场景分割网络（PSPNet），通过基于不同区域的上下文信息整合探索全局上下文信息。全局池化先验描述用于提供场景分割更好的结果，而PSPNet则用于像素级估计。
在这里插入图片描述

Introduction

在这里插入图片描述

Related Work

Pyramid Scene Parsing Network

研究是通过实施FCN模型并研究其failure case开始的。下图是网络结构。
在这里插入图片描述

Important Observations

通过研究ADE20k下的实验结果，论文作者关于复杂场景理解得出了这样几个主要结论：
在这里插入图片描述

Mismatched Relationship
上下文关系是全局的，并且对于复杂场景理解至关重要。存在几种共同的（co-current）视觉形式。比如，飞机在天空上飞而不会在马路上飞。但是在Fig.2中的第一行里面，FCN将黄色框中的船根据其形状将其判断成类别“car”，但是常识是车很少会出现在河流上。因此，缺少上下文信息的收集会增加错误分类的概率。

Confusion Categories
ADE20K数据库中有很多容易混淆的类别。比如“field”和“earth”，“mountain”和“hill”，“wall”、“house”、building
和“skyscraper”。它们的外观是相似的，即使是专业标注师标注整个数据集也会出现17.60%的像素错误（ADE20K数据库文章中说明的）。如Fig.2中第二行显示的，FCN将目标的一部分识别为Skyscraper而另一部分则识别为building。这种结果应该被排除，因为整个目标应该要么是Skyscraper要么是building，但不会同时是这两类。这个问题可以通过利用类别间的关系进行纠正（remedy）。

Inconspicuous（不显眼的） Classes
场景中包含的目标、物体是任意尺寸的。有些小尺寸物体，比如街灯、标牌等很难识别，但是却很重要。相反地，有些大目标可能会超过FCN的感受野，从而导致估计的不连续。如Fig.2中第三行显示的，枕头和床单有着相似的外观。为了提高超小目标或超大目标的识别准确率，算法应当更多关注包含不显眼（inconspicuous）类别物体的不同子区域（sub-regions）。

总结一下这些观察结果，许多错误可以通过不同感受野下的上下文关系和全局信息被部分或完全消除。因此，一个有全局场景级别先验（global-scene-level prior）的网络能够大幅提高场景理解的表现。

Pyramid Pooling Module

有了上面的分析，我们介绍下面这个金字塔池化模型，其能够经验上有效提升全局上下文先验。

在深度神经网络中，感受野尺寸可以粗略表达所利用的上下文信息。尽管理论上ResNet的感受野已经比整个输入图像都大了，但是Zhou等人还是证明了CNN的经验感受野比理论值小很多，且尤其是对高级别层而言。这使得很多神经网络不能够有效包含全局场景先验的动量。我们通过提出一个有效的全局先验表达来解决这个问题。

全局平均池化在全局上下文先验上是一个很好的baseline模型，常被用于图像分类任务。但对于诸如ADE20K等复杂场景，这种做法就不够了。这些场景图片下的像素根据许多stuff和object标注而来。因此，直接将它们融合到一个向量中可能会丢失空间关系并造成歧义。考虑到这种歧义，子区域上下文的全局上下文信息时更有帮助的。另一个更好的表达可以是不同子区域感受野信息的融合。

Fig.3中的部分（c）是提取特征的金字塔池化结构。金字塔池化模型融合了4个尺寸的特征。每层结束以后用1x1的卷积层计算每个金字塔层的权重，最后用双线性恢复成原始尺寸。需要注意的是，金字塔池化层的级数和尺寸是可以根据输入的特征图的尺寸进行修改的。文中用到的尺寸分别为1x1,2x2,3x3和6x6，一共四层。

Network Architecture

基于金字塔池化结构，论文作者提出了金字塔场景理解网络（PSPNet, pyramid scene parsing network），如Fig.3所示。给定输入图像Fig.3(a)，作者利用预训练的ResNet和空洞网络策略提取特征图。最终特征图的尺寸是原始图像的1/8，如Fig.3(b)所示。在这个特征图的基础上，利用了提出的池化层获取上下文信息。最后一个卷积层将所有的特征集中，生成估计图(d)。

Deep Supervision for ResNet-Based FCN

尽管预训练的深度网络能够提升表现，但是增加网络的深度也会增加图像分类问题的优化难度。论文中利用了两个损失，额外的损失用于监督初始结果，最终损失用于监督残差。这种方式将优化问题分成两步，从而更容易收敛。

下图是ResNet101下的示例。
在这里插入图片描述
主干用softmax loss训练最终分类器，在四个阶段后还应用了其他分类器，比如res4b22残差网络。

Experiments

提出算法在ImageNet scene parsing challenge 2016、PASCAL VOC 2012 semantic segmentation和Cityscapes下进行测试。运用Caffe框架。

Implementation Details

cropsize和batchsize对于好结果至关重要。根据GPU显存限制，论文作者选择训练过程中batchsize 16。

ImageNet Scene Parsing Challenge 2016

Dataset and Evaluation Metrics
ImageNet场景理解挑战赛2016用的是ADE20K数据库。有150个类别，1038张image-level labels。挑战赛训练集、验证集和测试集分别包含20k, 2k和3k张图片。

Ablation Study for PSPNet
剥离试验包括：最大和平均池化、只进行一个全局特征池化或者四层特征的池化、池化后和级联前有和没有降维。结果如下表所示：
在这里插入图片描述

Ablation Study for Auxiliary Loss
证明额外损失能够帮助优化过程而不会影响主干线。附加损失的权重 $\alpha$ 在0到1之间，结果如下表所示。
在这里插入图片描述
Ablation Study for Pre-trained Model
尝试了4个深度{50，101，152，269}，下图为结果。

具体结果如下表所示：