论文原文
U-Net: Convolutional Networks for Biomedical Image Segmentation
0. 简介
U-Net基于FCN网络进行拓展,使得其在可用数据量较少的医学图像分割领域取得了很好的分割效果:
- 在上采样过程中,大幅提升了featureMap的通道数,使得底层语义信息能够更好地传递到上层;
- decoder过程,不仅使用了下层的featureMap还使用了对应encoder层的featureMap,进行特征融合;
- 设计损失函数时,对相互接触同类别的cell之间的边界,赋予了更大的权重;
- 允许overlap-tile重叠策略对任意尺寸的大图产生近精细的语义分割图;
1. 网络结构
U-Net网络整体呈近似U型的对称结构。这个encoder-decoder架构无全连接层,仅依靠卷积和池化操作。
encoder部分完全遵循典型的卷积网络架构,一共有5层(深度)。前四层中,每一层包括两个无padding的 3 × 3 3 \times 3 3×3卷积(原输入图本就大于输出尺寸),第一个卷积将featureMap通道数扩大一倍,第二个不改变通道数。两个卷积之后接一个ReLU层,然后接maxpooling层进行下采样,strde=2,使得尺寸减半,通道数不变。第五层,两个卷积同前四层一样作用,最后不接maxpooling,而是up-conv进行上采样。
decoder部分,除U型最底部,其余层输入,不仅包含了下端上采样的结果featureMap,还包含了对应encoder部分卷积后的featureMap,且是裁剪尺寸之后的featureMap,两个featureMap按通道进行拼接。之后一个 3 × 3 3 \times 3 3×3卷积将通道数减半,另一个 3 × 3 3 \times 3 3×3卷积不改变通道数。最顶端利用一个 1 × 1 1 \times 1 1