CVPR2017:Pyramid Scene Parsing Network

1.介绍

场景解析:基于语义分割

应用:自动驾驶,机器人感知

难点:场景和标签的复杂性。比如椅子和沙发,马和牛

数据集:LMO dataset;PASCAL VOC;ADE20K;

目前场景分析的大多数框架都是基于FCN。但是因为目标存在相似的外表,FCN将船标记为汽车。如果我们以context prior来看整幅图像,这个场景可以别描述为boathouse near a river,正确的分类应该会产生。而基于FCN的模型主要的原因是因为没有很好的利用全局场景种类线索。为了得到全局的图像级的特征,spp在Spatial pyramid matching for recognizing natural

scene categories cvpr2006被提出,并在Spatial pyramid pooling in deep convolutional networks for visual recognition eccv2014上面进一步提高了。不同这些方法,我们提出PSPNet。

2.相关工作

我们的工作主要从两个方面进行,一个是利用多尺度的特征。在网络中,深层的特征包含着更多的语义信息和更少的位置信息,将多尺度特征结合起来能够提高准确率。另一条方向是基于structure prdiction.先前有方法把CRF作为后续处理,接下来的方法直接修正网络以完成端对端的训练。这些方法提高了分类的位置的准确性,但是在复杂场景中仍有利用的空间。

3.PSPNet

3.1重要的观察

Mismatched Relationship:图2中,FCN基于它的外形将船分类为汽车,但是常识告诉我们汽车很少会在河上。缺少搜集上下文的信息会增加误分类的可能。

Confusion Categories:例子就是field和earth;mountain和hill。FCN将目标的一部分分为摩天大楼,一部分分为building。这样的结果应该别排除,要么是摩天大楼,要么是building。不可能一部分是这个,一部分是那个。这个问题可以被纠正,通过利用种类之间的关系。

Inconspicuous Classes:一些小尺寸的东西,比如街灯和指示牌虽然很小但是很重要。相反的,大物体超越了FCN的感受野并且引起了不连续的预测。比如图2c,因为床单可能和枕头有相似的外表,过分关注全局的信息可能会导致不能识别枕头。为了能够提高对大物体和小物体的表现,我们应该更加关注不同的子区域,这些子区域包含不起眼的种类的stuff。

3.2PPM

经过以上的分析,我们引入PPM模型,这被证明是一个有效的全局的上下文的prior。

在DNN中,感受野的大小可以大概显示我们使用了多少的context information.尽管理论上Resnet的感受野比输入图片要大,但是zhou说明cnn在实验上的感受野要比理论上的小,尤其是在深层上。这使得很多的网络不能充分地包含关键的全局场景prior。我们提出了一个方法。

Global average pooling是提取全局上下文prior的好的模型,被用在图像分类和语义分割中。但是ADE20K的复杂场景下的图像,这个技巧已经不能够包含必要的信息。

在【12】中,被pyramid pooling产生的在不同level上的特征图最终被flattened并且被合并在一起成一个全连接层以用来分类。这个全局的Prior被设计来去除在图像分类中需要图像固定大小的限制。为了进一步地减少在不同的子区域中的上下文信息的损失,我们提出一个层次化的全局prior,包含着不同尺度的和不同子区域之间的变化信息。我们将其称之为PPM。

3.3网络结构

We use a pretrained ResNet with the dilated network strategy(Multi-scale context aggregation by dilated

convolutions.ICLR 2016) to extract the feature map.The final feature map size is 1/8 of the input image.(在作者的源代码中,type: "BN",type: "Interp"(完成上采样的操作))

4.对基于ResNet的全卷积网络的深度监督

深度预训练的网络将有一个好的准确率。不管怎么样,增加网络的深度可能会引入额外的优化方面的困难。ResNet用skip connection解决这样的问题。

与之对应,我们提出一个产生初始化的结果,通过用一个额外的loss来监督。我们让这两个loss函数都向前传递。这辅助的loss帮助优化学习的进程。


要点:

data augmentation(提高0.7%),dilated convolution,auxiliary loss(提高1%),PSP(提高2%),POOLING(MAX,AVG高一些)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值