二十九. 查漏补缺之U-Net语义分割网络

        为什么说是查漏补缺? 当初学卷积神经网络和语义分割网络时,好像自己对U-Net这个名字有偏见,故意跳过没学它,现在发现U-Net一样很有用, 所以翻出来认真学习一下. 顺便对语义分割网络大家族做下一个总结. 正应了那句话: 出来混,迟早要还的.

        语义分割网络是个大家族,也是现有基于图像的实例分割,自动驾驶中车道线分割,3维点云语义分割等应用奠定了基础. 常见的语义分割网络有: 开山鼻祖FCN,U-Net系列,SegNet,DeepLab v系列等.

        语义分割(Semantic Segmentation):是对一张图像上的所有像素点进行像素级分类。常见网络有:开山鼻祖FCN,U-Net系列,SegNet,DeepLab v系列等;

实例分割(Instance Segmentation):相当于目标检测任务和语义分割任务的结合。相对目标检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割需要标注出图上同一物体的不同个体。如:MaskRCNN,以及3维点云分割的PolarNet.

全景分割(Panoptic Segmentation):相当于语义分割任务和实例分割任务的结合。实例分割只对图像中的前景物体进行检测,并对检测到的物体进行像素级分割;全景分割是对图中的所有可识别物体和背景都要进行检测和像素级分割。典型如3为点云全景分割网络: Panoptic-PolarNet.

       先说比较熟悉的FCN语义分割网络,FCN虽采用3种不同的跨层链接结构,将浅层目标位置信息强但语义信息弱的特征映射经上采样后和深层目标位置信息弱但语义信息强的特征映射做了融合,并以此生成三种不同精度的分割结果: FCN-32S,FCN-16s,FCN-8s. 但其分割精度最高的FCN-8s来说, 其分割效果比较模糊和平滑,对图像中的细节表现效果仍不理想. 究其原因: 在对各个像素进行分类时没有充分考虑像素与像素之间的关系。忽略了在通常的基于像素分类的分割方法中使用的空间规整(spatial regularization)步骤,缺乏空间一致性。

        于是,针对FCN的缺点, U-Net诞生了.  先看一张U-Net的网络结构图(图片来源与网络):

         U-Net的思想基于FCN,在整个网络中没有全连接层,只有卷积层,可以输入适应任意图像尺寸.整体结构也是爱用编码器-解码器结构. 但与FCN不同的是,FCN在深浅层融合时采用的是逐元素相加,而U-Net采用的是通道拼接融合(关于深浅层特征融合还有另一种方式是逐元素相乘,比如DSSD网络). U-Net还有一个特点: 就是采用大量弹性形变的方式做数据增强,以扩容数据集,让模型更好地学习形变不变性. 因为U-Net非常适用于训练数据集规模较小的应用场景, 比如医学图像(我好像找到当初对U-Net偏见的真正原因了). 

        从上图中也可以看出,为了做深浅层的特征融合,U-Net做了4次跨层链接结构.

        后来,作者又提出U-Net++. 作者认为unet中直接将encoder的浅层特征与decoder的深层特征结合是不妥当的,会产生semantic gap。我们可以简单理解为不同年代的人之间年龄代沟. 因为90年代的人没有经70年代或80年代人生经历, 想问题做事情方式存在差异. 对应到网络上就是会影响训练时网络参数的收敛.

        那怎么办? 把缺的都给它补上. 于是.每一个解码器层都融合了来自编码器中的小尺度和同尺度的特征图,以及来自解码器的大尺度的特征图,这些特征图捕获了全尺度下的细粒度语义和粗粒度语义。

        于是,在U-Net基础上,有了U-Net++ 和 U-Net3+.(注:图片源自网络)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值