CVPR2017：Pyramid Scene Parsing Network

最新推荐文章于 2023-09-12 00:40:47 发布

Sag_ittarius

最新推荐文章于 2023-09-12 00:40:47 发布

阅读量521

点赞数

1.介绍

场景解析：基于语义分割

应用：自动驾驶，机器人感知

难点：场景和标签的复杂性。比如椅子和沙发，马和牛

数据集：LMO dataset;PASCAL VOC;ADE20K;

目前场景分析的大多数框架都是基于FCN。但是因为目标存在相似的外表，FCN将船标记为汽车。如果我们以context prior来看整幅图像，这个场景可以别描述为boathouse near a river，正确的分类应该会产生。而基于FCN的模型主要的原因是因为没有很好的利用全局场景种类线索。为了得到全局的图像级的特征，spp在Spatial pyramid matching for recognizing natural

scene categories cvpr2006被提出，并在Spatial pyramid pooling in deep convolutional networks for visual recognition eccv2014上面进一步提高了。不同这些方法，我们提出PSPNet。

2.相关工作

我们的工作主要从两个方面进行，一个是利用多尺度的特征。在网络中，深层的特征包含着更多的语义信息和更少的位置信息，将多尺度特征结合起来能够提高准确率。另一条方向是基于structure prdiction.先前有方法把CRF作为后续处理，接下来的方法直接修正网络以完成端对端的训练。这些方法提高了分类的位置的准确性，但是在复杂场景中仍有利用的空间。

3.PSPNet

3.1重要的观察

Mismatched Relationship:图2中，FCN基于它的外形将船分类为汽车，但是常识告诉我们汽车很少会在河上。缺少搜集上下文的信息会增加误分类的可能。

Confusion Categories:例子就是field和earth;mountain和hill。FCN将目标的一部分分为摩天大楼，一部分分为building。这样的结果应该别排除，要么是摩天大楼，要么是building。不可能一部分是这个，一部分是那个。这个问题可以被纠正，通过利用种类之间的关系。

Inconspicuous Classes:一些小尺寸的东西，比如街灯和指示牌虽然很小但是很重要。相反的，大物体超越了FCN的感受野并且引起了不连续的预测。比如图2c,因为床单可能和枕头有相似的外表，过分关注全局的信息可能会导致不能识别枕头。为了能够提高对大物体和小物体的表现，我们应该更加关注不同的子区域，这些子区域包含不起眼的种类的stuff。

3.2PPM

经过以上的分析，我们引入PPM模型，这被证明是一个有效的全局的上下文的prior。

在DNN中，感受野的大小可以大概显示我们使用了多少的context information.尽管理论上Resnet的感受野比输入图片要大，但是zhou说明cnn在实验上的感受野要比理论上的小，尤其是在深层上。这使得很多的网络不能充分地包含关键的全局场景prior。我们提出了一个方法。

Global average pooling是提取全局上下文prior的好的模型，被用在图像分类和语义分割中。但是ADE20K的复杂场景下的图像，这个技巧已经不能够包含必要的信息。

在【12】中，被pyramid pooling产生的在不同level上的特征图最终被flattened并且被合并在一起成一个全连接层以用来分类。这个全局的Prior被设计来去除在图像分类中需要图像固定大小的限制。为了进一步地减少在不同的子区域中的上下文信息的损失，我们提出一个层次化的全局prior，包含着不同尺度的和不同子区域之间的变化信息。我们将其称之为PPM。

3.3网络结构

We use a pretrained ResNet with the dilated network strategy(Multi-scale context aggregation by dilated

convolutions.ICLR 2016) to extract the feature map.The final feature map size is 1/8 of the input image.（在作者的源代码中，type: "BN",type: "Interp"(完成上采样的操作)）

4.对基于ResNet的全卷积网络的深度监督

深度预训练的网络将有一个好的准确率。不管怎么样，增加网络的深度可能会引入额外的优化方面的困难。ResNet用skip connection解决这样的问题。

与之对应，我们提出一个产生初始化的结果，通过用一个额外的loss来监督。我们让这两个loss函数都向前传递。这辅助的loss帮助优化学习的进程。

要点：

data augmentation(提高0.7%),dilated convolution,auxiliary loss(提高1%),PSP（提高2%）,POOLING（MAX，AVG高一些）

Sag_ittarius

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CVPR2017：Pyramid Scene Parsing Network

1.介绍场景解析：基于语义分割应用：自动驾驶，机器人感知难点：场景和标签的复杂性。比如椅子和沙发，马和牛数据集：LMO dataset;PASCAL VOC;ADE20K;目前场景分析的大多数框架都是基于FCN。但是因为目标存在相似的外表，FCN将船标记为汽车。如果我们以context prior来看整幅图像，这个场景可以别描述为boathouse near a river，正确的分类应该会产生。...
复制链接

扫一扫