1.介绍
场景解析:基于语义分割
应用:自动驾驶,机器人感知
难点:场景和标签的复杂性。比如椅子和沙发,马和牛
数据集:LMO dataset;PASCAL VOC;ADE20K;
目前场景分析的大多数框架都是基于FCN。但是因为目标存在相似的外表,FCN将船标记为汽车。如果我们以context prior来看整幅图像,这个场景可以别描述为boathouse near a river,正确的分类应该会产生。而基于FCN的模型主要的原因是因为没有很好的利用全局场景种类线索。为了得到全局的图像级的特征,spp在Spatial pyramid matching for recognizing natural
scene categories cvpr2006被提出,并在Spatial pyramid pooling in deep convolutional networks for visual recognition eccv2014上面进一步提高了。不同这些方法,我们提出PSPNet。
2.相关工作
我们的工作主要从两个方面进行,一个是利用多尺度的特征。在网络中,深层的特征包含着更多的语义信息和更少的位置信息,将多尺度特征结合起来能够提高准确率。另一条方向是基于structure prdiction.先前有方法把CRF作为后续处理,接下来的方法直接修正网络以完成端对端的训练。这些方法提高了分类的位置的准确性,但是在复杂场景中仍有利用的空间。
3.PSPNet
3.1重要的观察
Mismatched Relationship:图2中,FCN基于它的外形将船分类为汽车,但是常识告诉我们汽车很少会在河上。缺少搜集上下文的信息会增加误分类的可能。
Confusion Categories:例子就是field和earth;mountain和hill。FCN将目标的一部分分为摩天大楼,一部分分为building。这样的结果应该别排除,要么是摩天大楼,要么是building。不可能一部分是这个,一部分是那个。这个问题可以被纠正,通过利用种类之间的关系。
Inconspicuous Classes:一些小尺寸的东西,比如街灯和指示牌虽然很小但是很重要。相反的,大物体超越了FCN的感受野并且引起了不连续的预测。比如图2c,因为床单可能和枕头有相似的外表,过分关注全局的信息可能会导致不能识别枕头。为了能够提高对大物体和小物体的表现,我们应该更加关注不同的子区域,这些子区域包含不起眼的种类的stuff。
3.2PPM
经过以上的分析,我们引入PPM模型,这被证明是一个有效的全局的上下文的prior。
在DNN中,感受野的大小可以大概显示我们使用了多少的context information.尽管理论上Resnet的感受野比输入图片要大,但是zhou说明cnn在实验上的感受野要比理论上的小,尤其是在深层上。这使得很多的网络不能充分地包含关键的全局场景prior。我们提出了一个方法。
Global average pooling是提取全局上下文prior的好的模型,被用在图像分类和语义分割中。但是ADE20K的复杂场景下的图像,这个技巧已经不能够包含必要的信息。
在【12】中,被pyramid pooling产生的在不同level上的特征图最终被flattened并且被合并在一起成一个全连接层以用来分类。这个全局的Prior被设计来去除在图像分类中需要图像固定大小的限制。为了进一步地减少在不同的子区域中的上下文信息的损失,我们提出一个层次化的全局prior,包含着不同尺度的和不同子区域之间的变化信息。我们将其称之为PPM。
3.3网络结构
We use a pretrained ResNet with the dilated network strategy(Multi-scale context aggregation by dilated
convolutions.ICLR 2016) to extract the feature map.The final feature map size is 1/8 of the input image.(在作者的源代码中,type: "BN",type: "Interp"(完成上采样的操作))
4.对基于ResNet的全卷积网络的深度监督
深度预训练的网络将有一个好的准确率。不管怎么样,增加网络的深度可能会引入额外的优化方面的困难。ResNet用skip connection解决这样的问题。
与之对应,我们提出一个产生初始化的结果,通过用一个额外的loss来监督。我们让这两个loss函数都向前传递。这辅助的loss帮助优化学习的进程。
要点:
data augmentation(提高0.7%),dilated convolution,auxiliary loss(提高1%),PSP(提高2%),POOLING(MAX,AVG高一些)