【图像分割论文阅读】PSPNet:Pyramid Scene Parsing Network


PSPNet

文章来自香港中文大学以及SenseTime集团有限公司.发表于CVPR2017
论文地址PSPNet:Pyramid Scene Parsing Network


背景

场景分割任务是典型的图像分割任务,但是由于场景的多样性以及不受限制的词汇使得场景分割任务仍是一个巨大挑战.
当下的SOTA方法是基于FCN的,但是不同的场景以及不受限制的词汇使得正确的分割仍存在许多问题.如下图中第一行,错将红色箭头所指的船舶分类为汽车.一方面是因为两者比较相似,但究其原因在于,当下基于FCN模型的分割方法,缺乏合适的策略整合利用全局场景信息.如果注意到整幅图是一个湖面场景,那么应该得出正确的结果.
误分类
对于典型的复杂场景理解,为了获得全局图像级特征,通常会用到空间金字塔技术,因为空间上的统计数据能够反映整体的场景信息…作者基于此,提出Pyramid scene parsing network,PSPNet.不同于Dilated FCN,为了获得像素级的预测结果,文中将像素级特征扩展到专门设计的全局金字塔池化特征…全局特征和局部特征同时起作用.此外作者提出了一种有效的优化方式.
1).作者提出PSPNet',将复杂场景的上下文特征嵌入到基于FCN`的像素级预测框架中.
2).提出了一种深度监督损失的深度网络优化策略.


模型构架

PSPNet

金字塔池化

在深度网络中,感受野的大小反映了我们利用的上下文信息多少.但是已被证实,实际的感受野大小要比理论上的感受野要小,这就使得全局上下文信息尚有许多未被考虑.global average pooling, GAP,全局平均池化通常用于图像分类任务中.但是对于ADE20K这样复杂的场景图像,这一策略尚不足以覆盖有效的必要信息.因为在这些场景中的像素包含许多对象的注释,如果仅仅将其合成为单独的向量,容易丢失空间信息并容易导致歧义.

pyramid pooling模块中融合了四种不同金字塔尺度的特征.其中,最上层的由红色块表示的部分代表生成单个bin输出的全局池,它是最粗糙的.其他层代表不同特征的不同子区域.并且金字塔池化的尺寸各不相同.为了在最后整合多尺度信息,在卷积之后加上suize =1x1大小的卷积操作.然后通过双线性值插法进行上采样得到与原始特征图1/8大小的特征图.之后再通过卷积操作整合所有上下文信息,最终生成与输入大小一致的分割图像.

注意到这里的池化核大小是可调整的.,文中使用的分别是size=1x1,2x2,3x3,6x6大小的池化核.

损失函数

文中的基础模型是基于ResNet的FCN模型,存在skip连接.作者设计了两个损失函数,分别约束主干分割网络以及校正网络.如图:loss


实验

相较其他数据集,ADE20K更加有挑战性,包含1038个图像级标签以及超过150个类别.评测的标准为Pixel-wise acc以及mIoU.下图反映了以ResNet50为baseline进行处理得到的结果.其中MAX/AVE代表池化方式.B1 or B1236代表金字塔池化模块中采用的池化核大小.DR代表是否在池化后减少特征维度.
ADE20K

此外,作者还验证了额外的损失函数是否对模型有促进作用.其中AL代表额外损失函数, α \alpha α代表这一支路所占权重.
loss a

下图是与一些SOTA模型的对比.
SOTA
最后看一下,分割实例:相比baseline,PSPNet的的分割结果更为精细.[baseline是采用了dilated conv的FCN]
object

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值