基本信息
全名:《U-Net: Convolutional Networks for Biomedical Image Segmentation》
文章地址:http://www.arxiv.org/pdf/1505.04597.pdf
Github:https://github.com/jakeret/tf_unet
发表年份:2015年
摘要
- 本文的初衷是为了解决医学图像分割问题;
- 提出了一种数据增强方法来有效利用标注数据;
- 提出了一种U型的网络结构可以同时获取上下文信息和位置信息;
- 该方法在2015年的ISBI cell tracking比赛中获得了多项第一。
简介
- 医学领域图像分割标注数据相对不足;
- 本文的比较对象为Ciresan et al. [1],该文章通过输入以某个像素点为中心的一个patch以获得该像素点的label,但存在两点不足:1)由于需要逐patch地输入来进行预测,因此非常的慢;2)没有解决位置信息和上下文信息之间的trade-off问题,即大patch有上下文信息但是缺少位置信息(max-pooling所致),小patch有位置信息但是缺少上下文信息;
- 本文的方法基于FCN[2]。
- 采用了Overlap-tile strategy:
即由于边界区域的像素缺乏上下文信息,通过在原图像外围“tile”一圈的做法来补全上下文,举例来说,譬如要补全上图中黄框区域的上下文成蓝框区域,具体的做法是将黄框和蓝框之间右侧和下侧的像素通过镜像拷贝的方式拷贝到左侧和上侧,以补全蓝框。
5. 数据增强策略:通过对原始图像进行弹性形变以获得补充图像,这可以让网络学习弹性形变不变性;
6. 加权Loss:增大对粘连的同类物体之间的“background”像素的loss权重,使得每个物体的分割轮廓是清晰的。
网络结构
- Encoder:左半部分,由两个3x3的卷积层(ReLU)+2x2的max polling层(stride=2)反复组成,每经过一次下采样,通道数翻倍;
- Decoder:右半部分,由一个2x2的上采样卷积层(ReLU)+Concatenation(crop[3]对应的Encoder层的输出feature map然后与Decoder层的上采样结果相加)+2个3x3的卷积层(ReLU)反复构成;
- 最后一层通过一个1x1卷积将通道数变成期望的类别数。
结论
- 本文也是分割领域很经典的一篇paper,UNet基于FCN,对FCN的基本结构进行了更精细的设计,更为高效,是可以替代FCN的方案;
- 本文采用的Overlap-tile策略、数据增强策略、加权Loss策略等都是非常经典的trick,值得初学者学习借鉴。
参考
- ^Ciresan, D.C., Gambardella, L.M., Giusti, A., Schmidhuber, J.: Deep neural networks segment neuronal membranes in electron microscopy images. In: NIPS. pp. 2852–2860 (2012)
- ^Long, J., Shelhamer, E., Darrell, T.: Fully convolutional networks for semantic segmentation (2014), arXiv:1411.4038 [cs.CV]
- ^The cropping is necessary due to the loss of border pixels in every convolution. Why?