语义分割中的多尺度特征设计

语义分割中的多尺度特征设计

图像语义的概念

图像的语义可分为三层,视觉层,对象层和概念层。以下图Fig1为例,视觉层通常包含了图像的底层特征语义信息,例如图像的颜色,车辆和树的轮廓,纹理信息等等,对象层可以理解为带有属性和特征的具体实例,比如车,树,道路,红绿灯,概念层就是人看到这张图片后所理解得到的信息,也就是这张图片的语义,比如看到这张这张图片,会反应出这是一个交叉路口。这样看来,语义分割是在对象层进行工作,将图像中的每一类对象分割开来。
在这里插入图片描述

为什么需要?

很明显,语义分割是一种需要精确到像素级分类的任务,对于这类任务,多尺度的图像特征被证明是十分必要的。考虑以下情形,我们现在要用经典的编解码结构完成语义分割任务,如下图所示[2],在编码器阶段,图像经过一系列的卷积和池化操作变换成了富含高层语义信息的特征图,在解码器阶段,特征图逐步上采样产生与输入图像相等尺寸的预测结果,横向箭头表示额外引用浅一层的特征信息。直观上看,编解码结构既用到了高层语义信息也用到了底层语义信息,应该会有不错的分割效果。但值得注意的是在这个结构里,解编码过程进行了频繁的上下采样,这会导致图像分辨率的缺失。比如下图,解码器最上端的特征图相当于被缩放了32倍,而在解码器里却要用插值技术上采样还原这32倍,其中的过程必然导致了像素点的缺失。
诚然,我们是可以选择减少上下采样的次数来减少缺失(比如只缩放8倍 ),但这样做虽然缓解了缺失问题但又引发了一个新的问题就是–感受野不足,在卷积核大小不变的情况下,在高层特征图进行卷积操作能获得比底层更大的感受野。假设下图的层数从下到上依次为level0~level5(Image和Prediction为level0),再假设输入图像是一只猫,那么3x3的卷积核在level3(缩放8倍)可能只能看到猫身体的一部分,但在level5(32倍) 3x3的卷积核或许就能看到整个猫。
所以在图像分割任务就有这样的矛盾,只用底层特征的话能看到很多图像的轮廓纹理等细节,像素缺失也大大减少,在对图像某个对象的某一小块来说可能十分精准,但问题是看不见整个对象,后果可能是猫的脑袋和尾巴分割成了不同的类别。而只用高层特征的话,虽然可以看到整只猫,但上采样次数太多,边缘细节又变得模糊。因此如何有效结合或者说平衡各种尺度的特征对于语义分割是十分重要的,且研究者们从也不缺少智慧的火花。
在这里插入图片描述

多尺度特征设计技术

1. ASPP (Atrous Spatial Pyramid Pooling)

ASPP技术出现在DeepLab系列,私认为是一个非常优雅的多尺度特征解决方案。我们先说一下空间金字塔池化SPP,SPP开始用于SPPNet,目的是让卷积架构能接受任意大小的输入,具体做法是在fully-connected layers 前面加一层网络,该网络接受不同尺寸的特征图输入,输出固定大小的特征表示,这一层就叫SPP layer,SPP将任意大小的特征图都化为16,4,1个块,然后在每个块上进行最大池化操作,最后拼接就能产生固定的输出,如下图所示[3]。最值得注意的一点就是这个不同尺寸的池化操作,在同一个特征图上不同尺寸的池化操作得到了不同程度的感受野,类似地,我们是否在level3上用较大尺寸的卷积/池化操作,在level3上就能得到在level5上相等大小的感受野?这样就可以在感受野大小不变的情况下可以少进行两次上下采样操作。
在这里插入图片描述
ASPP借助于这个思想,用不同比率 d 的空洞卷积替换了上述的池化操作,d =1的空洞卷积就是红色的普通卷积,d = 2 的空洞卷积如下图绿色所示[1]。分别取d =4,8,16进行卷积,就可以得到感受野依次增大的多个特征图。
在这里插入图片描述
因此ASPP可以减少上下采样的次数,在编解码结构里加入ASPP如下图[2]所示。这里是在level4处添加的ASPP,减少了一次缩放,也可以按实际情况在其他level使用ASPP,相对来说,高层使用计算负担减少,低层使用准确率提高,可以在实际情况中权衡。
4

ref:
[1] S. Ghosh, N. Das, I. Das, and U. Maulik, “Understanding Deep Learning Techniques for Image Segmentation,” arXiv:1907.06119 [cs], Jul. 2019, Accessed: Jan. 07, 2021. [Online]. Available: http://arxiv.org/abs/1907.06119.
[2] L.-C. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation,” in Computer Vision – ECCV 2018, vol. 11211, V. Ferrari, M. Hebert, C. Sminchisescu, and Y. Weiss, Eds. Cham: Springer International Publishing, 2018, pp. 833–851.
[3] K. He, X. Zhang, S. Ren, and J. Sun, “Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition,” arXiv:1406.4729 [cs], vol. 8691, pp. 346–361, 2014, doi: 10.1007/978-3-319-10578-9_23.

  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值