U-net原文 《2015_Ronneberger_Cite=49316_U-net: Convolutional networks for biomedical image segmentation》
铺垫和引入
医学影像分割
医学影像分割的目的是将医学图像中具有某些特殊含义的部分分割出来,并提取相关特征。
医学上的分割准确率比其他领域如交通领域的分割准确率要求的高很多,
概况
处理对象:各种不同成像机理的医学图像,主流的有X射线成像(X-CT)、核磁共振成像(MRI)、核医学成像(NMI)、超声波成像(UI)、电子显微镜成像(EM)、
应用思路:首先对二维切片图像进行分析和处理,实现对人体器官、软组织和病变体的分割提取,然后进行三维重建甚至定量分析,从而大大提高医疗诊断的准确性和可靠性。
医学影像分割的 难点
- 医学分割的数据量往往比较小,这导致了训练起来很困难。比如一场医学影像的挑战赛仅仅提供不到100张训练数据,ImageNet有一百万例,咋训练啊?这么少的数据,对于深度学习模型是很容易过拟合的。比如几万次的脑部CT图才仅仅有十几个脑部肿瘤的照片,我们拥有大量健康大脑的CT图,但是患有肿瘤的CT图样本量太少了,样本不均衡,很难训练。
- 图片的尺寸太大了。单张图片尺寸大、分辨率高,对模型处理速度有较高要求。
- 对于分割结果的准去度要求极高。医学影像边界模糊、梯度复杂,很难分割的很准确。但是毕竟涉及病情诊断,要求准确率高也是应该的。
- 数据有可能是多模态的。比如ISLES脑梗竞赛,官方不仅仅提供了一种形式的数据,提供了用许多其他医学成像的方法拍出来的成像图,比如CBF MTT CBV TMAX CTP。比如下面这个,六张图都是排的一个大脑,六张图都多多少少都有你要用的信息,如何把六张图一起用,而且用的尽可能的好,这就是个多模态的问题。
U-net的研究成果及意义
- 分数高:赢得了ISBI cell tracking challenge 2015
- 速度快:对一个512 × 512的图像,使用一块GPU仅仅用来不到1秒的时间
- 成为大多做医疗影像语义分割任务的baseline,启发大量研究者去思考U型语义分割网络
- U-net结合了低分辨率信息和高分辨率信息,完美适用于医学影像分割。低分辨率信息提供物体类别识别依据,高分辨率信息提供精确分割定位依据。
收缩路径contracting path to capture context,扩张路径symmetric expanding path that enables precise localization
Introduction
Ciresan et al. 在滑动窗口sliding window设置中训练网络,以某一像素的领域(local region)(一个像素的正方形领域也就是一个patch)作为输入,用于预测每个像素的类别标签。网络的优点有:
(1)网络具有局部感知能力。
(2)用于训练上的样本数量远大于训练图像的数量。(我觉得,他这样把图片切成小方框,就是为了增大训练样本的数量)
(3)该网络获得了EM分割挑战赛ISBI 2012冠军。
该网络的不足:
(1)该网络运行效率很慢,对于每个邻域,网络都要运行一次,且对于领域重叠overlapping patches的部分,网络进行重复运算,实际上这些计算都是冗余redundancy
(我们滑动窗口是以某像素作为邻域作为输入,随着像素点向右滑动,以前在左边是边缘的东西慢慢变成了中心,继续滑动又从中心变成了右边,那么在这个过程里,最开始在像素点左边的这个区域被分割了不止一次,这就好比一个学生重复做他做过的题、已经掌握的题,请问意义在哪呢?)
(2)网络需要在精确的定位和获取上下文信息之间进行权衡(意思就是二者是矛盾的,无法兼顾)trade-off between localization accuracy and the use of context。
越大的patch需要越多的最大池化层(为啥需要?为了降低参数量吗?其实我不知道),这会降低定位的准确度localization accuracy。(大的patch可以捕捉到更多的上下文信息,涉及的面广,自然可以兼顾更多)
而小的patch使得网络获取较少的上下文信息。
U-net 通过弹性变形elastic deformation的方式增加数据量。(前面提及的镜像反转mirroring是弹性变形的一种)。这种方法在生物医学图片中是是十分重要的,因为这种方法模拟了真实的场景,变形是生物细胞组织当中最常见的变化,真实的变形可以有效的模拟这种形变。因此这种数据增强是不会破坏图片的原有结构的,还可以给模型的鲁棒性带来一定的帮助。
你在做实验的时候,如果你对的模型特别有自信,你就可以选择不同场景的数据集,全都做一遍训练,常见的有(1)道路Cavid(2)室内 SegRGBD,因为比较小,不要用NYU,因为这个data特别的imbalance