# Pyramid Scene Parsing Network
PSPNet 特点:
* 场景标注 Scene parsing
* 全局内容信息 global context information
* different-regionbased context aggregation
* pyramid pooling module
* 像素级预测 pixellevel prediction tasks
Introduction
场景识别,基于语义分割,其目标是对图像中的各像素分别分配一个类别标签,以对场景进行理解. 如Figure 1.
场景识别,主要利用 FCN 网络,存在的问题:
- 物体外形相似 similar appearance of objects,especially considering diverse scenes and unrestricted vocabulary.
- FCN 缺乏利用全局场景类别信息的策略 lack of suitable strategy to utilize global scene category clues —— Spatial pyramid pooling 和 Spatial pyramid pooling network 采用不同的空间信息来对场景整体理解.
PSPNet:
- PSPNet 来提取合适的全部特征
- 将传统 dilated FCN 产生的像素级特征,扩展到 global pyramid pooling 特征.
- 结合 Local 和 Global 信息进行最终的预测.
- 提出 supervised loss 的优化策略,防止梯度发散.
Pyramid Scene Parsing Network
复杂场景标注存在的问题
- Mismatched Relationship 关系不匹配
复杂场景理解中,上下文关系是很普遍且重要的,物体间存在的共生(co-occurrent)的视觉属性. 如,飞机可能在跑道上或者飞在空中,而不是在公路上. 如 Figure2 的第一行,FCN 基于外形将黄色框中的 boat 错误预测成 car. 但从常识来说,car 很少在河流上. 因此,缺少完整的上下文间信息导致容易出现误分类. - Confusion Categories 类别易混淆
物体类别标签容易混淆,比如 field 和 earth、mountain 和 hill、wall 和 house 和 building 和 skyscraper. 如 Figure2 的第二行,FCN 将方框中的内容预测分别为 skyscraper 和 building 的一部分. 而实际上,结果应该全部是两者中的一个,而不是都有. 通过利用类别间的关系能够纠正该问题. - Inconspicuous Classes 类别不显著
场景中包含任意大小的物体,一些小尺寸、不显著(Inconspicuous)的物体很难被发现,比如路灯和信号牌等,但这些小物体的作用却很大. 而,大尺寸的物体超出了FCN的接受野,导致预测结果不连续(discontinuous). 如 FIgure2 的第三行,pillow(枕头) 和 sheet(床单) 外形比较相似,俯瞰全局场景类别可能忽略掉 pillow. 因此,为了能较好的考虑不同尺寸大小的物体,需要注意包含不显著物体的不同子区域.
Pyramid Pooling Module
基于以上三类问题, 提出 Pyramid Pooling Module 来有效获取全局上下文信息.
- 深度网络中的接受野大小可以粗略的估计获取的上下文信息的多少.
- 理论上,ResNet 的接受野大于输入图像;但实际上,CNN的接受野是比理论上要小的,尤其是在网络的 high-level 层.
- Global average pooling(全局平均池化) 是一种较好获取全局上下文信息的方法
- Spatial pyramid pooling in deep convolutional networks for visual recognition 中,采用 pyramid pooling 得到的不同 levels 的 feature maps 转化为固定长度的一维特征表示,输入到全连接层,以进行分类任务. 该一维全局先验信息去除了CNN的固定尺寸约束.
- 为了减少不同子区域的上下文信息损