图像太宽无法输出请裁剪图像或降低分辨率然后重试_【论文精读】U-Net 适用于低数据量图像分割的深度卷积网络...

本期推文主要介绍U-Net结构,这是一种包含多重卷积层和升采样层的深度卷积网络,它的特点在于:对数据量要求小,高效,精准,不含有全连接层。
本文作者: Masonic@NAIS

论文题目:

U-Net: Convolutional Networks for Biomedical Image Segmentation

论文作者:

Olaf Ronneberger, Philipp Fischer, and Thomas Brox

发表时间:2015.05.18


  • 概论 ABSTRACT

大多数的深度神经网络需要数以千计的标记数据图像来训练,而本篇论文提出的U-Net模型和相关训练算法,利用了扩大数据集(Data Augmentation)的核心思想,最大限度的利用有限的数据集去训练模型。

U-Net在2015年的ISBI比赛上以大幅度的领先赢得了生物细胞定位项目的冠军。到目前为止,U-Net的各种变种模型3D U-Net, V-Net, TernausNet, Res-UNet等等在图像分割领域仍保持着相当的活力。

241b1b50dee94a9402423155a5cf8898.png
TernausNet: 使用 VGG11 编码器的U-Net变种

ae475c4af826963ca92c68b8b3161186.png
Attention U-Net: 使用了注意力机制的U-Net变种

396a9b57bdd738423f710c082bf817be.png
Attention R2U-Net: 增加了递归结构的U-Net变种

  • 模型结构 Structure

U-Net本质上是不含全连接层的全卷积网络,标准的U-Net由左右两条路径构成,U型网络由此得名,两条路径分别是

左侧的降采样/编码路径(contracting network/encoder)

最左侧输入

的多通道原始图像,进行4次双重3x3卷积和4次2x2最大池化进行四层的降采样操作后,将图像压缩至
的尺寸。每层降采样都会把特征通道(Feature Channels)加倍,反映到示意图上就是蓝色方块越来越"厚"。

在这里,降采样操作的意义在于,它能够降低图像平移,旋转等操作带来的扰动,降低过拟合的风险。同时多层降采样产生的大量特征通道(1024层),能够很好的将像素周围的相关信息(context information)传递到接下来的网络中,换句话说就是能够感知局部像素(localization)而不是单一像素。

8d628ac8e53ef9ea52f410dc58b34cc2.png

右侧的升采样/解码路径(expansive network/decoder)

右侧升采样路径同样由四层升采样层构成,不过这里的池化层改为了2x2的升卷积层。每个升卷积层将特征通道减半,并将图像的尺寸加倍(长宽x2=面积x4)。

U-Net结构的左右侧结构是对称的,每次升采样后都将结果和左侧的降采样层的特征通道拼合起来,这里使用的是concat而不是sum。由于右侧的结果尺寸较小,因此将左侧的特征通道进行裁剪(蓝色虚线框)。这样做可以使模型合成出更精准的输入图像。

716680a06e2911d919f7be72fccc2459.png

最终使用了1x1的卷积核将64个特征通道映射到2个映射通道,输出结果是

尺寸的包含2层特征通道的图像。我们要解决的是医学上的图像分割问题,因此一层特征是背景,另一层特征是目标的组织图像。U-Net总共使用了23层卷积层。

ea21cf9cda2869178e7364cd2cf6bec8.png
以脑组织切片为例,黑色部分为背景,其余为我们需要的脑图像

  • 关键技术 Tricks

数据集扩充策略(Data Augmentation)

本篇论文的核心思想之一是数据集扩充(Data Augmentation),对于样本量小的医学图像分割问题,核心的解决思路是使用变形模型(Deformation Model)对图像进行空间变形,以获取更多的原始数据。这样可以使模型对同一个图像学到更多的变量。这一点已经在Dosovitskiy等人关于无监督学习特征的论文中讨论过。

本文在3x3的网格上,使用符合高斯分布的10像素变形向量来进行变形(deformation),使用双三次插值(bicubic interpolation)来填充变形造成的分辨率降低的问题。在下采样路径的最后加入了Drop-Out方法,进一步地扩充数据集。

无缝分割策略(Overlap-Tile)

输入的原始图像是

尺寸的,而不是
尺寸的,这是为了更好地处理边缘像素。我们知道,卷积层在处理图像时会造成一定程度的边缘信息丢失。

那么多出来的那块像素是从哪来的呢? 答案很简单,针对边缘进行镜像。

03f26ecd4ebe472e233a28bad53787d8.png

通过对图像进行overlap-tile处理,可以将图像分块输入模型,这有利于降低内存占用。而现有的其他方法有一定的缺陷:resize会导致图像分辨率降低,而滑窗分割(sliding-window)会产生过多的重叠边缘。

预计算权重矩阵策略(Pre-compute weight map/ weight initialization)

随着神经网络层数的增加,训练过程中会出现梯度消失的问题,这导致深层的网络参数无法被有效地训练。此外,某些卷积层可能会有过多的激活函数。因此,权值的初始化好坏程度会影响模型的效果以及训练时间。理想的权值初始化是使得网络中的每一个特征图方差都接近1。
在U-Net中,可以通过高斯分布随机生成权值,高斯分布的均方差为

,其中N为前一神经层的输入节点数,举例:前一层使用了3x3卷积核和64个特征通道,那么

  • 训练 Training

本文使用了Caffe自带的随机梯度下降方法(stochastic gradient descent implementation)进行训练。输入数据为原始图像,输出数据为分割好的图像。

输出结果时使用针对像素的soft-max算法,将特征通道映射为2个

,其中
这个特征通道在
这个像素位置的激活函数,
是类别数,
是对x的极大似然估计。

U-Net特别关注(细胞/脑图像)边缘的像素,为损失函数增加了边缘像素点权重。

64b78efcab6d904798851c1443bb5fc1.png
U-Net在海拉细胞分割任务体现出的边缘敏感性

在海拉细胞分割任务中的表现

由于卷积层使用了 unpadded 的卷积方法,导致输出的图像略小于输入的图像。为了节约成本,最大化地利用显存,我们使用大的Tile而不是Batch Size,因此每个Batch只包含一张图像。

61f072303d64af022d1c5b3e41d5707f.png
U-Net的训练成绩
  • 总结 Conclusion

U-Net及其变种模型自提出起一直活跃在医学图像分割领域,目前大部分的图像分割顶尖模型都或多或少地采用了U-Net的设计思路,它可以说是图像分割问题的基石之一。

U-Net及其变种模型的实例代码​github.com
d78fec3e06390811b114bcb3fb1f700a.png
U-Net的TF实现​github.com
f5a05277c84a42033bf05c77a3eacecd.png
论文的原始PyTorch实现​github.com

关于NAIS

人工智能逐渐地从前沿科研领域迈入了日常社会应用和大众生活。作为高中生的我们,应该充分利用人工智能时代的优势来丰富个人经历,提高学术水平

然而,在高中阶段自学AI对于初学者来时是很有挑战的。所以,我们的团队吸纳了多名精通以上领域的高中生们,成立了NAIS学生AI联盟这个非盈利性学生组织,立志为想学习AI的高中生们提供免费的学习资源与指导。

我们通过专家讲座平台、学习合作小组、学生研究团队的方法系统性地科普和学习人工智能。以合作、分享为基础,一起探索未来的人工智能发展!

更多关于NAIS的信息,请扫码关注我们的公众号哦~~

883717a8396374481207d26f19471e62.png
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 基于 U-Net 网络的遥感图像语义分割是一种用于识别遥感图像中不同类别区域的方法。U-Net 是一种用于图像分割任务的深度学习网络,通过将高分辨率图像输入网络,并逐步降低分辨率再进行上采样,从而实现对图像的全局和局部特征的建模。 在遥感图像语义分割中,首先将训练样本标注为不同的类别,例如建筑物、道路、水体等。然后,利用 U-Net 网络进行训练,通过学习训练样本的特征来建立起不同类别之间的关联。此外,U-Net 网络还通过跳跃连接(skip connection)实现了底层和高层特征的融合,提高了图像分割的准确性。 在进行遥感图像语义分割时,首先将输入的遥感图像经过预处理,如归一化处理和裁剪等,然后输入 U-Net 网络中进行特征提取和分割。通过网络卷积和池化操作,可以获取到图像的局部和全局特征。然后,通过上采样操作和跳跃连接的融合,获得高分辨率的分割结果。 基于 U-Net 网络的遥感图像语义分割具有以下优点:首先,U-Net 网络能够学习不同类别之间的关联和特征表示,从而能够准确地分割出遥感图像中的不同类别。其次,通过跳跃连接的融合,U-Net 网络能够捕捉到不同层次的特征,提高了分割结果的准确性和完整性。最后,U-Net 网络具有较好的扩展性和泛化能力,可以应用于不同尺度和不同类别的遥感图像分割任务。 总之,基于 U-Net 网络的遥感图像语义分割是一种高效准确的遥感图像处理方法,具有广阔的应用前景。 ### 回答2: 遥感图像语义分割是指对遥感图像中的每个像素进行分类,将其分为不同的语义类别。基于U-Net网络的遥感图像语义分割是一种常用的深度学习方法。 U-Net是由Ronneberger等人在2015年提出的一种图像分割网络。它的结构包含两个部分:下采样路径和上采样路径。下采样路径通过卷积层和池化层逐步减小图像大小,提取图像的全局和局部特征。上采样路径使用反卷积层和跳跃连接将特征图恢复到原始输入图像大小,并通过逐步合并特征图,进行语义分割的预测。 基于U-Net网络的遥感图像语义分割的步骤如下: 1. 数据准备:收集遥感图像数据集,并将其标注为不同的语义类别。 2. 数据预处理:对图像进行预处理,包括图像增强、归一化等操作,以提高网络的学习效果。 3. 搭建U-Net网络:根据U-Net的结构搭建网络模型,定义损失函数以及优化器。 4. 模型训练:使用训练集对网络进行训练,通过最小化损失函数来优化网络的参数。 5. 模型评估:使用验证集对网络进行评估,计算指标如准确率、召回率、F1值等,判断模型的性能。 6. 模型应用:使用训练好的模型对新的遥感图像进行语义分割,将每个像素分配到相应的语义类别中。 基于U-Net网络的遥感图像语义分割方法具有以下优点:能够利用图像的全局和局部特征进行分割,同时通过跳跃连接可以更好地保留图像中的细节信息,提高分割精度。但仍需根据实际情况选择合适的网络结构和参数,以获取更好的分割效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值