9.2.1 简述图像分割中经常用到的编码器-解码器网络结构的设计理念。

9.2 图像分割

场景描述

图像分类图像识别图像分割
不同标注出每个目标的类别像素级别的图像识别,标注出图像中每个像素所属的对象类别
不同整张图像进行识别进行稠密像素级分类
应用场景视频软件中的背景替换、避开人物的弹幕模板自动驾驶以及医疗辅助判断
分类前景分割(foreground segmentation)、
语义分割(semanticsegmentation)、
实例分割(instance segmentation)
2018年开始兴起的全景分割(panoptic segmentation)(图9.3)
常用数据集PASCAL VOC2012[23]、
MS COCO[25]、
CityScapes[24]
  • 图像分割是指像素级别的图像识别,即标注出图像中每个像素所属的对象类别。
  • 与图像分类对整张图像进行识别不同,图像分割需要进行稠密的像素级分类。
  • 图像分割的应用场景有很多,比如我们看到的视频软件中的背景替换、避开人物的弹幕模板、自动驾驶以及医疗辅助判断等都使用了基于图像分割的技术。

根据应用场景的不同,图像分割任务可以更精细地划分成以下几类:

  • 前景分割(foreground segmentation),
  • 语义分割(semanticsegmentation),更注重类别之间的区分;
  • 实例分割(instance segmentation),更注重个体之间的区分;
  • 2018年开始兴起的全景分割(panoptic segmentation),如图9.3所示[22],语义分割和实例分割结合

学术界常用的图像分割方面的数据集有PASCAL VOC2012[23]、MS COCO[25]和CityScapes[24]。

知识点:图像分割、编码器-解码器结构、空洞卷积、DeepLab算法

9.2.1 简述图像分割中经常用到的编码器-解码器网络结构的设计理念。

  • 图像分割中的编码器可视为特征提取网络,通常使用池化层逐渐缩减输入数据的空间维度
  • 解码器则通过上采样/反卷积等网络层来逐步恢复目标的细节和相应的空间维度

图9.4以U-Net为例,给出了一个具体的编码器-解码器网络结构[27]。

编码器中,引入池化层可以增加后续卷积层的感受野,并能使特征提取聚焦在重要信息中,降低背景干扰,有助于图像分类。

问题:然而,池化操作使位置信息大量流失,经过编码器提取出的特征不足以对像素进行精确的分割。这给解码器逐步修复物体的细节造成了困难,使得在解码器中直接由上采样/反卷积层生成的分割图像较为粗糙。

解决:因此,一些研究人员提出在编码器和解码器之间建立快捷连接(shortcut/skip connection),使高分辨率的特征信息参与到后续的解码环节,进而帮助解码器更好地复原目标的细节信息。

列举出2~3个基于编码器-解码器结构的图像分割算法。

经典的图像分割算法 FCN (Fully Convolutional Networks) [26]、U-Net[27]和SegNet[28]都是基于编码器-解码器的理念设计的。

FCN和U-Net是最先出现的编码器-解码器结构,都利用了快捷连接向解码器中引入编码器提取的特征。

  • FCN中的快捷连接是通过将编码器提取的特征进行复制叠加到之后的卷积层提取出的特征上,作为解码器的输入来实现的。
  • 与FCN不同,SegNet提出了最大池化索引(max-pooling indicies)的概念,快捷连接传递的不是特征本身,而是最大池化时所使用的索引(位置坐标)。利用这个索引对输入特征进行上采样,省去了反卷积操作,这也使得SegNet比FCN节省了不少存储空间

[22] KIRILLOV A, HE K, GIRSHICK R, et al. Panoptic segmentation[J].arXiv preprint arXiv:1801.00868, 2018.
[23] EVERINGHAM M, WINN J. The PASCAL visual object classes challenge 2012(VOC2012) development kit[J]. Pattern Analysis, Statistical Modelling and Computational Learning, Tech. Rep, 2011.
[24] LIN T-Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common objects incontext[C]//European Conference on Computer Vision. Springer, 2014: 740-755.
[25] CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 3213-3223.
[26] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015.
[27] RONNEBERGER, OLAF, FISCHER P, BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention, 2015:234-241.
[28] BADRINARAYANAN V, KENDALL Alex, CIPOLLA R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J].IEEE Transactionson Pattern Analysis and Machine Intelligence,2017.

下集预告:9.2.2 DeepLab系列模型中每一代的创新是什么?是为了解决什么问题?

参考文献:

《百面深度学习》 诸葛越 江云胜主编

出版社:人民邮电出版社(北京)

ISBN:978-7-115-53097-4

2020年7月第1版(2020年7月北京第二次印刷)

推荐阅读:

//好用小工具↓

分享一个免费的chat工具

分享一个好用的读论文的网站

// 深度学习经典网络↓

LeNet网络(1989年提出,1998年改进)

AlexNet网络(2012年提出)

VGGNet网络(2014年提出)

LeNet、AlexNet、VGGNet总结

GoogLeNet网络(2014年提出)

ResNet网络(2015年提出)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值