Pyramid Scene Parsing Network论文解读

Pyramid Scene Parsing Network 链接https://hszhao.github.io/projects/pspnet/

一. 提出理由

为了解决常用的FCN进行图像解析、语义分割时的经常出现问题,而提出本文

1.错误匹配:上下文信息要一致。 比如将水里的船错分为车,而水里出现的更可能是船,并且如果分辨出图片里还有一个船屋就更不容易分错了;飞机更可能在跑道上或者飞在天上,而不是在道路上。

2.易混淆的种类:比如,墙,房子,建筑和摩天大楼。即使标记的专家也在整个数据集上有17.60%的错误率。

3.不显眼的类别:比如路灯、广告牌等,小而重要。比较大的类别也有被割成几块,分类不连贯的问题。

因此大部分问题都部分地或是全部地与上下文信息之间的关联和全局信息相关。很多网络包含的全局先验信息太少,之前提出的全局平均池化无法利用不同子区域之间的关联信息,因而为了减少不同子区域间文本信息的损失,提出了金字塔池化模块(之前的SPPNet网络已经提出了金字塔池化,本文在此基础上有些改进)。

二. 模型介绍


1.实验中将473*473*512的图像输入训练好的扩张的残差网中,本文用的ResNet101,其中对模型的优化方式做了改进,在Res4b22处加了一个辅助损失(此处借鉴了GoogleNet的多分类器思想),先将它之前的部分微调一下得到初步结果,再在最后的最终损失处全局调节。这样每个路径都比原来的要简单。两个优化都是有监督的。


2.因为是扩张的ResNet,所以得到的特征图的大小是原来的1/8(因为用了atrous convolution从原来1/32到1/8,atrous convolution,also known as dilated convolution)此时特征图的大小是60*60*512。

3.金字塔池化模块,最上面的红色块大小是1*1*512,使用一个60*60的池化核做全局池化的(就是整张图求平均或者取最大得到一个点)

      橘黄色的块大小是       2*2*512,池化核大小30*30

    蓝色块大小是               4*4*512,池化核大小20*20

    绿色块大小是               6*6*512,池化核大小10*10

池化层的数量N和大小可以变

然后用一个1*1*128的卷积核分别卷积各个池化后的特征图,将它们降维到m*m*128,有四个金字塔池化层,所以512/4,减小计算量。

4.用双线性上采样将四个图放大到60*60,与原特征图叠在一起,大小为60*60*1024,这样就将各个子区域连接,以及和全局信息联系到了一起。

5.将特征图输入进150@n*n*1024的卷积层中,得到150张特征图,再上采样放大8倍到原图大小,根据概率得到预测图。此处卷积也用的扩张卷积。150是因为用的数据集ADE20K有150类。

总结,这篇论文结合了ResNet,FCN,  GoogleNet,SPPNet,以及扩张网络于一体,得到了非常好的结果,相继拿到ImageNet 2016 ,PASCAL VOC 2012,Cityscapes的第一名。




  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值