论文阅读理解 - Pyramid Scene Parsing Network

PSPNet是一种语义分割网络,旨在解决场景标注中的全局上下文信息缺失问题。它通过金字塔池化模块融合不同尺度的特征,以捕获不同尺寸物体的上下文信息,尤其对于小尺寸和不显著物体的识别效果更佳。PSPNet的网络结构包括dilated ResNet前馈层、pyramid pooling模块和卷积输出层,实现了像素级的预测任务,并以端到端的方式进行优化。
摘要由CSDN通过智能技术生成

# Pyramid Scene Parsing Network

PSPNet 特点:
* 场景标注 Scene parsing
* 全局内容信息 global context information
* different-regionbased context aggregation
* pyramid pooling module
* 像素级预测 pixellevel prediction tasks

Introduction

场景识别,基于语义分割,其目标是对图像中的各像素分别分配一个类别标签,以对场景进行理解. 如Figure 1.
这里写图片描述

场景识别,主要利用 FCN 网络,存在的问题:
- 物体外形相似 similar appearance of objects,especially considering diverse scenes and unrestricted vocabulary.
- FCN 缺乏利用全局场景类别信息的策略 lack of suitable strategy to utilize global scene category clues —— Spatial pyramid poolingSpatial pyramid pooling network 采用不同的空间信息来对场景整体理解.

PSPNet:
- PSPNet 来提取合适的全部特征
- 将传统 dilated FCN 产生的像素级特征,扩展到 global pyramid pooling 特征.
- 结合 Local 和 Global 信息进行最终的预测.
- 提出 supervised loss 的优化策略,防止梯度发散.

Pyramid Scene Parsing Network

复杂场景标注存在的问题

  • Mismatched Relationship 关系不匹配
    复杂场景理解中,上下文关系是很普遍且重要的,物体间存在的共生(co-occurrent)的视觉属性. 如,飞机可能在跑道上或者飞在空中,而不是在公路上. 如 Figure2 的第一行,FCN 基于外形将黄色框中的 boat 错误预测成 car. 但从常识来说,car 很少在河流上. 因此,缺少完整的上下文间信息导致容易出现误分类.
  • Confusion Categories 类别易混淆
    物体类别标签容易混淆,比如 field 和 earth、mountain 和 hill、wall 和 house 和 building 和 skyscraper. 如 Figure2 的第二行,FCN 将方框中的内容预测分别为 skyscraper 和 building 的一部分. 而实际上,结果应该全部是两者中的一个,而不是都有. 通过利用类别间的关系能够纠正该问题.
  • Inconspicuous Classes 类别不显著
    场景中包含任意大小的物体,一些小尺寸、不显著(Inconspicuous)的物体很难被发现,比如路灯和信号牌等,但这些小物体的作用却很大. 而,大尺寸的物体超出了FCN的接受野,导致预测结果不连续(discontinuous). 如 FIgure2 的第三行,pillow(枕头) 和 sheet(床单) 外形比较相似,俯瞰全局场景类别可能忽略掉 pillow. 因此,为了能较好的考虑不同尺寸大小的物体,需要注意包含不显著物体的不同子区域.
    这里写图片描述

Pyramid Pooling Module

这里写图片描述
基于以上三类问题, 提出 Pyramid Pooling Module 来有效获取全局上下文信息.
- 深度网络中的接受野大小可以粗略的估计获取的上下文信息的多少.
- 理论上,ResNet 的接受野大于输入图像;但实际上,CNN的接受野是比理论上要小的,尤其是在网络的 high-level 层.
- Global average pooling(全局平均池化) 是一种较好获取全局上下文信息的方法
- Spatial pyramid pooling in deep convolutional networks for visual recognition 中,采用 pyramid pooling 得到的不同 levels 的 feature maps 转化为固定长度的一维特征表示,输入到全连接层,以进行分类任务. 该一维全局先验信息去除了CNN的固定尺寸约束.
- 为了减少不同子区域的上下文信息损

  • 3
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值