论文阅读理解 - Pyramid Scene Parsing Network

最新推荐文章于 2022-10-13 19:36:18 发布

AIHGF

最新推荐文章于 2022-10-13 19:36:18 发布

阅读量1.2w

点赞数 3

分类专栏：语义分割论文阅读语义分割文章标签：论文阅读理解 PSPNet 语义分割

本文链接：https://blog.csdn.net/zziahgf/article/details/73294753

版权

PSPNet是一种语义分割网络，旨在解决场景标注中的全局上下文信息缺失问题。它通过金字塔池化模块融合不同尺度的特征，以捕获不同尺寸物体的上下文信息，尤其对于小尺寸和不显著物体的识别效果更佳。PSPNet的网络结构包括dilated ResNet前馈层、pyramid pooling模块和卷积输出层，实现了像素级的预测任务，并以端到端的方式进行优化。

摘要由CSDN通过智能技术生成

# Pyramid Scene Parsing Network

PSPNet 特点：
* 场景标注 Scene parsing
* 全局内容信息 global context information
* different-regionbased context aggregation
* pyramid pooling module
* 像素级预测 pixellevel prediction tasks

Introduction

场景识别，基于语义分割，其目标是对图像中的各像素分别分配一个类别标签，以对场景进行理解. 如Figure 1.
这里写图片描述

场景识别，主要利用 FCN 网络，存在的问题：
- 物体外形相似 similar appearance of objects，especially considering diverse scenes and unrestricted vocabulary.
- FCN 缺乏利用全局场景类别信息的策略 lack of suitable strategy to utilize global scene category clues —— Spatial pyramid pooling 和 Spatial pyramid pooling network 采用不同的空间信息来对场景整体理解.

PSPNet：
- PSPNet 来提取合适的全部特征
- 将传统 dilated FCN 产生的像素级特征，扩展到 global pyramid pooling 特征.
- 结合 Local 和 Global 信息进行最终的预测.
- 提出 supervised loss 的优化策略，防止梯度发散.

Pyramid Scene Parsing Network

复杂场景标注存在的问题

Mismatched Relationship 关系不匹配
复杂场景理解中，上下文关系是很普遍且重要的，物体间存在的共生(co-occurrent)的视觉属性. 如，飞机可能在跑道上或者飞在空中，而不是在公路上. 如 Figure2 的第一行，FCN 基于外形将黄色框中的 boat 错误预测成 car. 但从常识来说，car 很少在河流上. 因此，缺少完整的上下文间信息导致容易出现误分类.
Confusion Categories 类别易混淆
物体类别标签容易混淆，比如 field 和 earth、mountain 和 hill、wall 和 house 和 building 和 skyscraper. 如 Figure2 的第二行，FCN 将方框中的内容预测分别为 skyscraper 和 building 的一部分. 而实际上，结果应该全部是两者中的一个，而不是都有. 通过利用类别间的关系能够纠正该问题.
Inconspicuous Classes 类别不显著
场景中包含任意大小的物体，一些小尺寸、不显著(Inconspicuous)的物体很难被发现，比如路灯和信号牌等，但这些小物体的作用却很大. 而，大尺寸的物体超出了FCN的接受野，导致预测结果不连续(discontinuous). 如 FIgure2 的第三行，pillow(枕头) 和 sheet(床单) 外形比较相似，俯瞰全局场景类别可能忽略掉 pillow. 因此，为了能较好的考虑不同尺寸大小的物体，需要注意包含不显著物体的不同子区域.

Pyramid Pooling Module

这里写图片描述
基于以上三类问题，提出 Pyramid Pooling Module 来有效获取全局上下文信息.
- 深度网络中的接受野大小可以粗略的估计获取的上下文信息的多少.
- 理论上，ResNet 的接受野大于输入图像；但实际上，CNN的接受野是比理论上要小的，尤其是在网络的 high-level 层.
- Global average pooling(全局平均池化) 是一种较好获取全局上下文信息的方法
- Spatial pyramid pooling in deep convolutional networks for visual recognition 中，采用 pyramid pooling 得到的不同 levels 的 feature maps 转化为固定长度的一维特征表示，输入到全连接层，以进行分类任务. 该一维全局先验信息去除了CNN的固定尺寸约束.
- 为了减少不同子区域的上下文信息损