2024.1.28 机器学习周报

目录

引言

Abstract

文献阅读

1、题目

2、引言

3、网络架构

4、创新点

5、训练

6、实验

7、结论

总结

引言

本周阅读了一篇关于图像分割的文献,提出了一种用于生物医学图像分割的U-Net架构,它由一个收缩路径和一个对称扩展路径组成,以捕捉上下文信息和实现精确定位。在上采样部分使用大量的特征通道,可以将上下文信息传播到更高分辨率的层次。还提出了一种加权损失函数,用于区分同一类别的接触对象。由于训练数据有限,使用过度的数据增强方法对训练图像应用弹性变形。所得到的网络在生物医学分割任务中表现优于其他方法,如神经结构竞赛和ISBI细胞跟踪挑战,同时速度快且适用于各种分割问题。

Abstract

This week, I read a literature on image segmentation and proposed a U-Net architecture for biomedical image segmentation, which consists of a contraction path and a symmetric extension path to capture contextual information and achieve precise localization. Using a large number of feature channels in the upsampling section can propagate contextual information to higher resolution levels. A weighted loss function was also proposed to distinguish contact objects of the same category. Due to limited training data, excessive data augmentation methods are used to apply elastic deformation to the training images. The obtained network performs better than other methods in biomedical segmentation tasks, such as neural structure competitions and ISBI cell tracking challenges, while also being fast and suitable for various segmentation problems.

文献阅读

1、题目

U-Net: Convolutional Networks for Biomedical Image Segmentation

2、引言

人们普遍认为,深度网络的成功训练需要数千个带注释的训练样本。在本文中,我们提出了一种网络和训练策略,它依赖于强大的使用数据扩充来使用可用的注释样本更多有效地。体系结构由一条收缩路径组成上下文和实现精确定位的对称扩展路径。我们展示了这样一个网络可以从较少的图像,并且优于先前的最佳方法(滑动窗口卷积网络)在电子显微镜堆栈中的神经元结构分割的ISBI挑战上。使用在透射光显微镜图像上训练的相同网络(相位对比度和DIC),我们在2015年这些类别的ISBI细胞跟踪挑战赛中以很大优势获胜。此外,网络速度很快。细分在最近的GPU上,512x512图像的拍摄时间不到一秒钟。

3、网络架构

图 1

如上图所示,U-net架构(例如最低分辨率为 32x32 像素)。每个蓝色框对应于一个多通道特征图。通道数在方框的顶部表示。x-y 尺寸在 box 的左下边缘。白色框表示复制的特征映射。箭头表示不同的操作。它由 一个收缩路径(contracting path)(左侧)和 一个扩展路径(expansive path)(右侧)组成。

收缩路径 遵循卷积网络的典型架构。

  • 它由两个 3x3 卷积(无填充卷积)的重复应用组成,每个卷积后面都有一个 ReLU 和一个 stride 2 的 2x2 max pooling 操作用于下采样。
  • 在每个下采样步骤,我们将 特征通道的数量 增加一倍。

扩展路径中的每一步都包括对特征图的上采样,然后是将特征通道数量减半的 2x2 卷积(“up-convolution”),与 收缩路径中相应裁剪的特征图的 concatenation,以及两个 3x3 卷积,每个卷积后面都是一个 ReLU。

裁剪是必要的,因为在每个卷积中会丢失边界像素。

在最后一层,使用 1x1 卷积将每个 64 个分量的特征向量映射到所需的类别数量。该网络总共有 23 个卷积层。

为了允许输出分割图的 无缝拼块(seamless tiling)(参见下图),选择输入分块(tile) 大小很重要,以便将所有 2x2 max pooling 操作应用于具有偶数 x 和 y 大小的层。

图 2

 如上图所示。用于无缝分割任意大图像的重叠策略(这里是 EM stacks 中的神经元结构分割)。黄色区域的分割预测,需要蓝色区域内的图像数据作为输入。缺失的输入数据可以通过 mirroring 进行推算。

4、创新点

  • 本文提出了一种基于数据增强的网络和训练策略,可以更有效地利用有限的标注样本进行训练。
  • 本文引入了一种称为fully convolutional network的网络架构,通过增加分辨率来实现更精确的分割。
  • 本文的网络架构具有对称的扩张路径和收缩路径,可以同时实现良好的定位和上下文利用。
  • 本文的网络架构不包含全连接层,只使用输入图像中完整上下文信息的有效部分进行分割,从而实现对任意大图像的无缝分割。
  • 本文通过弹性变形的数据增强方法,使网络具有对组织变形的不变性,无需在标注图像中观察这些变形。
  • 本文提出了一种加权损失函数,用于解决同类别接触的细胞分割问题。

5、训练

利用输入图像及其对应的分割图,采用随机梯度下降 实现Caffe来训练网络。由于无填充卷积,输出图像比输入图像小一个恒定的边界宽度。

为了最小化开销并最大限度地利用 GPU 内存,我们倾向于使用较大的输入图像块,而不是较大的 batch size ,从而将 batch 减少为单个图像。因此,使用高 momentum(0.99),以便之前看到的大量训练样本确定当前优化步骤中的更新。

能量函数通过在 最终特征图上 pixel-wise soft-max 并结合 cross entropy loss function 来计算。

预先计算每个 ground truth 分割的权重图,以弥补训练数据集中特定类别像素的不同频率,并迫使网络学习我们在接触细胞之间引入的 小分离边界(参见 图3c和d )。

图 3

如上图所示,用 DIC (differential interference contrast) microscopy 记录玻璃上的 HeLa 细胞。(a) 原始图像。(b) 覆盖 ground truth 分割。不同的颜色表示 HeLa 细胞的不同实例。(c) 生成的分割 mask(白色:前景,黑色:背景)。(d)使用 pixel-wise loss 权重进行映射,以迫使网络学习边界像素。

在具有许多卷积层和不同路径的深度网络中,良好的 权值初始化 是非常重要的。否则,网络的某些部分可能会过度激活,而其他部分则永远不会做出贡献。理想情况下,初始权重应该调整,使网络中的每个特征图都具有近似的单位方差。

对于具有我们的架构(alternating convolution and ReLU layers)的网络,这可以通过从标准差为\sqrt{2/N} 的高斯分布中提取初始权重来实现,其中 N 表示一个神经元的传入节点数。

数据增强

在只有少量训练样本的情况下,数据增强对于让网络获得所需的 invariance 和 robustness 至关重要。在显微图像中,主要需要 平移和旋转不变性,以及对变形和灰度变化的鲁棒性。特别是训练样本的随机弹性变形似乎是用很少的标注图像训练分割网络的关键概念。我们在一个粗糙的 3 × 3网格 上使用随机位移向量生成平滑变形。位移从具有 10像素 标准差的高斯分布中采样。然后使用 双三次插值 计算每个像素的位移。收缩路径(contracting path) 末尾的 Drop-out layers 执行进一步的隐式数据增强。

6、实验

EM分割挑战排名(2015年3月6日),按扭曲误差排序。

表 1

ISBI细胞追踪挑战赛的结果。(a)“PhC-U373”数据集的输入图像的一部分。(b)具有手动地面实况(黄色边界)的分割结果(青色掩模)(c)“DIC-HeLa”数据集的输入图像。(d)分割结果(随机彩色蒙版)与手动地面实况(黄色边界)。

图 4

2015年ISBI细胞追踪挑战赛的分割结果(IOU)

表 2

演示了U-Net在三个不同的细分任务中的应用。第一个任务是电子显微记录中神经元结构的分割。图2显示了一个数据集示例和我们获得的分段。我们提供完整的结果作为补充资料。数据集是由EM分割挑战提供的,该挑战始于2012年ISBI会议,目前仍对新的贡献开放。训练数据是一组30张果蝇一龄幼虫腹神经索(VNC)连续切片透射电镜图像(512x512像素)。每个图像都配有相应的完全注释的细胞(白色)和细胞膜(黑色)的地面真相分割地图。测试集是公开的,但其分割地图是保密的。通过将预测的膜概率图发送给组织者,可以得到评价。评估是通过在10个不同的水平上对地图进行阈值化,并计算“扭曲误差”、“Rand误差”和“像素误差”。U-Net(平均超过7个旋转版本的输入数据)在没有进一步预处理或后处理的情况下获得了0.0003529的翘曲误差(新的最佳值,见表1)和0.0382的随机误差。

这明显优于Ciresan等人的滑动窗口卷积网络结果,最佳提交的翘翘误差为0.000420,rand误差为0.0504。就rand误差而言,在这个数据集上唯一性能更好的算法是使用Ciresan等人的概率图上应用的高度数据集特定的后处理方法。

也将U-Net应用到光镜下的细胞分割任务中。这项分段任务是2014和2015年ISBI细胞跟踪挑战的一部分。第一组数据集“PhC-U373”2包含胶质母细胞瘤-星形细胞瘤U373细胞,这些细胞位于聚丙烯酰亚胺基质上,通过相衬显微镜记录(见图4a、b和Supp.材料)。它包含35个部分注释的训练图像。这里我们实现平均借据(“十字路口在联盟”)的92%,这是明显比第二个最好的算法为83%(见表2)。第二个数据集“DIC-HeLa”3海拉细胞在平板玻璃(DIC)微分干涉对比显微镜记录的(参见图3,图4 c, d和增刊。材料)。它包含20个部分注释的训练图像。在这里,我们实现了77.5%的平均IOU,明显好于第二好的算法(46%)。

7、结论

U-Net架构在非常不同的生物医学分割应用上取得了非常好的性能。由于数据增加与弹性变形,它只需要非常少的注释图像,并有一个非常合理的训练时间只有10小时,在NVidia Titan GPU (6GB)。我们提供完整的基于的实现和训练有素的网络4。我们确信U-Net体系结构可以很容易地应用于更多的任务。

总结

本周针对segment anything相关的方向进行了解,并且初步对图像分割的文献进行了阅读学习,之后会更加深入的学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值