论文阅读:Pyramid Scene Parsing Network

PSPNet是一种使用金字塔池化模块的深度学习模型,旨在改善场景解析中的上下文信息聚合。通过多尺度处理,PSPNet能有效处理不同大小的物体并增强类别之间的联系,尤其在PASCAL VOC 2012和Cityscapes数据集上表现出色。此外,文章还介绍了ResNet的辅助loss在训练过程中的作用。
摘要由CSDN通过智能技术生成

1 摘要

本文针对场景解析提出一种使用金字塔池化模块的PSPNet,能够聚合不同区域的上下文信息,在场景解析中达到非常好的效果,该结构在各个数据集中均有很好的表现,其中在PASCAL VOC 2012和Cityscapes中刷新了mIoU的记录,分别获得85.4%和80.2%的准确率。

2 亮点

2.1 PSPNet

2.1.1 PSPNet总体结构的解释

在使用FCN的时候,可能会出现以下三种情况:
在这里插入图片描述
如上图:
① 类别关系识别错误。当在外形较为相似的情况下,FCN会把船屋旁边的船识别成为车辆,说明FCN并没有很好利用各个语义之间的联系,例如在这个例子中,船出现在湖泊中和船屋旁边的概率肯定会比车辆大。

② 类别发生融合。在外形相似的情况下如建筑和摩天大楼,FCN在第二栏中把一个物体识别成为一部分为建筑一部分为摩天大楼。但是这个物体应该只能为二者的其中之一。

③ 忽略小尺寸的物体。如在第三行中,FCN就把枕头忽略掉了,这是由于一大片床单上放置一个颜色跟床单较为相似的枕头,而FCN关注全局特征信息的时候就忽略了局部信息。

出现上面的根本原因是:对于同一张图,FCN总是采取同一个尺度的池化层,也就是总是考虑的是全局信息而有可能忽略了局部信息以及局部信息之间的联系,为此,作者提出需要进行多尺度

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值