PSPnet语义分割网络学习笔记

最新推荐文章于 2024-09-14 19:18:15 发布

小月车干

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量240

点赞数

分类专栏：语义分割文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_42984932/article/details/114448481

版权

语义分割专栏收录该内容

1 篇文章 0 订阅

订阅专栏

CVPR原文链接：https://openaccess.thecvf.com/content_cvpr_2017/papers/Zhao_Pyramid_Scene_Parsing_CVPR_2017_paper.pdf.

语义分割场景常见问题：

在ADE20K数据集上基于FCN baseline分割常出现的问题
关系不匹配：例如飞机应该在天上而不是在马路上，汽车应该在路上而不是在河里；
类别混淆：FCN在一些类别的分类并没有完全分隔开来，例如摩天楼；
小类别：不起眼小类别并没有被有效分割，例如枕头；
ADE20K数据集上表现

金字塔池化模型

金字塔池化模型在经验上证明了是可以用以刻画上下文的先验的。
在深层网络中，感受野的大小可以表示上下文的信息程度，但是在ResNet中的感受野并没有理论上的大，尤其在高层上，无法融合全局场景。
全局平均池化并没有办法实现复杂的语义分割任务。
overview of PSPnet
金字塔池化融合了四个比例的池化层，其中红色最粗糙的就是全局池化，为了保持全局特征的权重，如果金字塔的级别大小为N，则在每个金字塔级别之后使用1×1卷积层将上下文表示的尺寸减小为原始视图的1 / N。也就是通过11卷积成为单层的池化层，之后用双线性插值，上采样成原来大小进行组合。
在这里对CNN 所提取的feature map的池化单元分别是11、22、33和6*6.借助四级金字塔，合并之后的特征包含了图像的整个、一半、一小部分。金字塔池比全局池更有代表性。

基于ResNet的FCN深度监督

使用ResNet作为预训练网络进行迁移，但是随着网络深度的增加会引进优化难度，ResNet通过skip blocks之间的连接来解决这个问题。而残差的学习是基于前一个连接（？，previous ones ）。
而本文则使用最终loss来学习残差。如图，除了使用softmax损失来训练分类器的主分支，还使用了使用了辅助损失函数，通过调整权重让它们通过之前的所有层来优化学习过程。然而在测试阶段放弃了辅助损失函数（。。。）。
ResNet101示例