语义分割2:U-Net学习总结

U-Net: Convolutional Networks for Biomedical Image Segmentation(用于生物医学图像分割的卷积网络)

Abstract

作者基于数据增强提出了一个开创性的图像分割网络U-Net(含压缩路径扩张路径)和训练策略,以更有效地使用可用的注释样本。

作者本论文的主要贡献

  1. 提出新颖的(开创性的)医学图像分割网络U-Net(Encoder-Decoder)
  2. 损失函数
  3. 数据增强

废话不多说,直接上U-Net网络结构图!

1. 网络结构

上面的U型框架实质上是一个Encoder-Decoder的结构

1.1Encoder(压缩路径)

U-Net的Encoder是一个"contract path"压缩路径,图片经过左侧的压缩路径以捕获上下文信息。它的基本卷积块由两个(3x3卷积(零填充)+ReLU激活函数)+步长为2的2x2最大池化组成,每一个卷积块后加入一个下采样操作,并且将通道数翻倍。

1.2Decoder(扩张路径

U-Net的Decoder是一个"expand path"扩张路径,图片经过右侧的扩张路径以获得精确的位置信息。它的基本向上卷积块由前一块特征映射的上采样,经过2x2卷积并将通道数减半,与来自Encoder的相应裁剪的特征进行连接,最后使用两个(3x3卷积+ReLU)。

问题1为什么Decoder要与Encoder通过对应的裁剪进行连接?

答:每次的卷积操作是以滑动窗口的形式在图片中移动的,那么很显然图像的边缘与中心是被滑动窗口区别对待的,随着网络层数的加深(经过多次卷积),图像边缘的信息被逐渐弱化。通过对应裁剪并连接可以保留图像浅层的信息(边缘、纹理、颜色变化等低级信息,在上下文信息方面讲,浅层包含的图片更加局部,更加细节)。

问题2这里的对应裁剪连接和ResNet的残差连接的区别是什么?

其实这里的对应裁剪并连接与ResNet的残差块相似但不一样,ResNet的残差块是对相同的通道做加法,而这里的连接是做串联,将来自Encoder的对应信息和Decoder中的信息串联(来自压缩路径的高分辨率特征与来自扩张路径的语义特征结合,实现有效分割和精确定位),再进行后续的卷积操作。

1.1+1.2总结

上采样具有的大量特征通道允许将上下文信息传播到高分辨率特征层上,U-Net的Encoder和Decoder是高度对称的,输入图像可以获得更加完整的上下文,催生了重叠贴图策略,对任意大的图像进行无缝切割,可以通过镜像的输入预测图像边缘缺失的上下文,对大型图像来说可以减少硬件对分辨率的限制

1.3类别映射(已知注释文本的信息,对其进行分类)

在网络的最后一层,使用1x1卷积将64通道的特征向量映射到所需要的类别数量。

2.训练策略

2.1训练时大致的策略

使用随机梯度下降法实现使用输入图像与其对应的分割图像的训练网络,作者希望最小化开销并最大化使用GPU显存,更倾向于大型输入切片(而非大批量)-->即喜欢单张图片的输入,此外,作者希望先前训练过的样本决定(影响)当前训练步骤的更新,使用了高动量high momentum(0.99)

--------------------------------------什么是动量  我很菜    不知道,后期需要学习--------------------------------

2.2损失函数

写的不是很清楚,自己没有理解到位

损失函数的计算是通过结合交叉熵损失函数在最终的特征映射上逐像素进行softmax。

①pk(x)的说明:

ak(x)表示位于Ω空间内的像素位置x的第k个特征通道的激活

K是类别数

"pk(x) ≈ 1 for the k that has the maximum activation ak(x) and pk(x) ≈ 0 for all other k."具有最大激活值的ak(x)得pk(x)近似等于1,其余为0

②E的说明:

交叉熵损失函数在每一个位置惩罚pl'(x)(x)与1的偏差,pl(x)是每个像素的真实标签,W是权重图。


        预先计算GT分割的权重图,补偿训练集中某类像素的不同频率,迫使网络学习我们在touching cells(触摸单元)之间引入的小分离边界

W权重映射计算如下:

同样理解的不到位,无法说清

权重初始化先驱知识:高斯分布(待补)

3.数据增强(elastic deformations 弹性形变)

问题3为什么要使用弹性形变来数据增强呢?

医学图像数据较少,弹性形变可以有效地模拟出真实的变形,教导网络学习变形的不变性(?)

文中提到:随机弹性变形是使用从标准差为 10 像素的高斯分布中采样的位移向量生成的。每像素位移使用双三次插值法计算。此外,收缩路径末尾的丢弃层进一步有助于隐式数据增强

4.U-Net优点

  1. 使用少量的训练数据就能够得到非常精确的分割效果
  2. 提出了Encoder-Decoder的架构,同时关注到高分辨率和位置信息,使得分割更加精确
  3. 使用重叠切片策略无缝分割任意尺度的图像,使网络通过进一步的数据增强学习到变形中的不变性

5.思考,如何改进U-Net呢?

  • 语义的分类可以改变:分类只是简单地通过1x1卷积,最终的通道数由类别数决定的

  • 29
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

风的暖色调

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值