【医学分割】Medical Image Segmentation Using Deep Learning: A Survey

概述

本文是一篇2020年的医学分割的综述,主要包括了监督学习和弱监督学习,而不包括无监督学习。前者主要包括骨干网络的选择、网络块的设计以及损失函数,后者主要包括数据增广、迁移学习和交互式分割,着重小样本和类别不均衡方面的研究。之后包括一些医学分割常见的评估指标以及一些新的研究包括神经结构搜索、图卷积网络、多模态数据融合以及transformer在医学图像处理的应用。最后介绍了常见的医学分割数据集并进行了一些总结和展望。

细节

引言

图像分割任务主要包括语义分割实例分割,语义分割是指图片像素级别的分类,就是为每个像素确定一个类别;实例分割是在语义分割的基础上,对于每个类别的像素,同时区别属于哪个实例。而医学分割的话,主要研究的是语义分割。并且医学图像有他自己的特点,包括噪声和模糊的边界等。

按照标注数据的数量,机器学习方法通畅分为监督学习、弱监督学习和无监督学习。监督学习能够使用充分的标注了的数据进行模型的训练,但是一般医学图像处理方面,没有那么多标注了的图像。与之相对的是无监督学习,不需要标注了的数据,但是模型会比较难训练。他们中间的就是弱监督学习了,他只需要部分标注了的数据,绝大多数数据可以是没有标注的,这种模式感觉上更适合真实的需求。

另外在研究方面,随着深度学习的发展,现在的研究多是数据驱动的,在特定的数据集上,采用不同的方法结合数据集的特点进行设计,解决不同的问题。

监督学习

骨干网络

医学分割中的骨干网络基本是encoder-decoder结构的,如FCN、U-Net、Deeplab等,encoder用于特征提取,decoder用于重建出全分辨率的特征图并输出分割图,所以骨干网络的设计也侧重于encoder更有效的特征提取与decoder中的特征恢复与融合。

2D数据处理中最经典的骨干网络就是UNet。

而用于3D数据的3D Net,有3D-UNet、V-Net等,3D数据是医学数据的主流,但是3D Net普遍计算量和显存的占用都会很大。

RNN用于建模图像序列的时间依赖性,也会与CNN结合用于医学分割任务,因为他可以考虑上下文信息来捕捉图像的局部和全局的信息,但是这样的设计并不常见,因为需要高质量的图片数据,但这是很难得的。

skip-connection操作能够将不同语义级别的特征进行融合从而舔狗特征的表征能力,同时促进梯度的传播,也被广泛的应用于网络结构中,但是特征融合时候也会面临着特征的语义级别差距过大的问题,一个通常的解决思路是在skip-connection中增加额外的卷积操作。

网络的级联,有时候会训练2个或者多个网络,并将他们级联,进一步提高网络的准确率。就图像分割任务,主要包括粗细分割,检测分割还有混合分割。粗细分割,一些做法如训练一个网络用于粗粒度的分割,另一个网络在粗粒度分割的基础上进行细粒度的分割。检测分割的话,首先通过一个检测网络做目标检测,接着在检测到的区域中再做分割。我们上面有提到,3D Net的计算代价很大,所以有个做法就是将3D的数据转换成2D的数据,然后级联若干个网络做这部分数据的处理。这个做法由于每次取得的都是局部的信息,准确率的提高有限。所以有一个更火热的研究就是2D-3D混合分割的方法。就是一个2D网络处理2D数据,3D网络提取3D特征,然后将2D特征和3D特征做融合去做最后的处理。

GAN,GAN几乎可以用于所有的任务,在分割中,一种做法是generator用于生成分割图,discriminator用于区分生成的分割图与ground truth,从而强迫生成网络生成更加精确的分割图。GAN更加适合于训练样本有限的情况下。

先验知识,使用器官的形状和位置信息等先验知识可以约束和引导网络的训练过程,从而提高分割结果并且模型的鲁棒性,但是关于如何将先验知识融合到网络中的研究相对而言较少。

网络功能块

Dense Connection:稠密链接起源于DenseNet中的核心部分,每一层的输入是前面所有层的输出融合之后的结果,所以能够获得更加丰富的图像特征,但是同时也会降低图像特征的鲁棒性提高参数量。

Inception:能够在不增加深度的情况下合并卷积核,利用多尺度卷积核提取更加丰富的特征,并进行特征融合。但是这种结构会比较复杂,导致模型的修改会比较困难。
Depth Separability:深度可分离卷积将经典的卷积操作分解为两部分操作,有效的减少了模型的参数量和占用的显存,但是可能会导致分割准确度的下降,因此需要一些其他的方法进行辅助,如深度监督等。

Attention Mechanism:注意力机制的使用主要包括了空间注意力、通道注意力还有混合注意力,核心就是让网络只关注图像中的感兴趣的区域。空间注意力机制核心在于寻找感兴趣的目标区域,计算空间区域内每个像素的重要性,借助这个重要性提取图像的关键信息。通道注意力机制核心在于寻找感兴趣的特征,利用学习到的全局信息来选取有用的特征,抑制无用的特征。混合注意力机制:空间注意力对于每个通道都一视同仁,而通道注意力忽视每个通道的局部信息,对于每个位置一视同仁,因此将两种注意力混合或许会得到一个更好的结果。当然,也有研究关注到底怎么使用注意力机制效果会比较好,一个结论是:单纯使用通道注意力机制的效果最好。
上述描述的注意力机制是基于传统的卷积操作的,也就是局部的注意力,那么相对的也会有全局的注意力,就是自注意力机制,利用不同目标和特征之间的关联,利用全局的信息,往往基于自注意力机制的CNN结构会比寻常的CNN结构有更好的性能。

Multi-scale Information Fusion:多尺度信息融合能够获得更加具有表征能力的特征,比如空间金字塔池化SPP:利用平行的多尺度的池化操作有效改善网络的上下文信息,并且提取更丰富的语义特征;空洞空间金字塔池化ASPP:在SPP的基础上添加空洞卷积,减少池化带来的细粒度信息的损失;ASPP由于空洞卷积的性质,会带来新的信息损失,因此也可以将其与self-attention操作结合。

损失函数

概述:损失函数的创新,一般都是为了解决类别不平衡问题(一幅图像中只有一个或者两个目标,而且目标的像素比例比较小,使得网络的训练比较困难)。做法一般就是在常见损失函数的基础上添加惩罚项,更加贴合当前数据集。
最基本的损失函数就是交叉熵损失函数CE
在这里插入图片描述
但是交叉熵损失函数对于每个像素点都一视同仁,而医学图像中往往会有类别不均衡问题。所以我们可以给损失项添加权重得到BCE,如下
在这里插入图片描述
另外还有的一个想法是让模型学到类间的距离,就是在BCE的基础上再加一项描述距离(这个没太搞懂)
在这里插入图片描述

另一个常用的损失函数就是Dice Loss,这个损失适用于类别不平衡得到情况,但是不利于反向传播使得训练困难,同时也没有那么具有鲁棒性。另一方面,Dice同样是医学分割的一个评估指标,定义为:
在这里插入图片描述
Tversky Loss是Dice Loss的正则化版本
在这里插入图片描述
Generalized Dice Loss是用于处理严重的类别不平衡问题的Dice Loss
在这里插入图片描述

Boundary Loss同样也是处理类别不平衡问题的损失函数,它最小化分割图的边界与GT的边界距离,他与Dice Loss一起使用能达到更好的效果。

Exponential Logarithmic Loss:是focal loss与Dice Loss的结合

深度监督:使用深度监督可以使得模型更深,从而得到更具有表征能力和鲁棒性的特征,同时由于强行添加的梯度,使得模型训练更加流畅。另一方面,或许能起到额外的效果,如unet++中的模型剪枝的效果。

弱监督学习

数据增广

在数据有限的情况下,数据增广是一个很不错的解决思路。
传统的数据增广方式:噪声抑制、图像强度变换(亮度、对比度、饱和度)和图像局部变换(旋转、失真、缩放),但是最常见的还是参数变换,如旋转、平移、剪切、移位、翻转等,因为他们没有计算成本。
新型的数据增广方式:使用带有条件的GAN进行。

迁移学习

迁移学习核心就是在当前的目标数据集上微调一个在大数据集下训练好的模型。
很多时候做迁移学习是因为当前的数据集比较小,难以训练出一个具有强泛化能力的模型,因为在大数据集下做预训练,学习到通用的特征,然后在当前数据集下微调,是一个不错的选择。但是,两个数据集之间的分布差异是一个问题,另一方面,3D的数据很难做迁移学习。当然,要是当前数据集很大的话,预训练模型未必能带来性能的提高。所以,能使用预训练模型的话,尽可能使用一下,要是无法带来性能的提高的话,就放弃。
领域自适应:首先为什么要使用这个技术,是因为统一模型在相同/相似的任务下表现差异悬殊,因为数据的域不同,如A数据是俯视图,B数据是仰视图,那么在A下表现良好的模型在B中可能就一般了。因为领域自适应想要做的就是实现模型在另一个域保持效果,通过手段尽可能减少两个域的差距,使模型学到更普遍的特征。

交互式分割

交互式分割允许临床医生更正由模型生成的初始分割图像,以获得更准确的分割。医生使用鼠标点击或者划框的方式,修正最初的结果,然后模型自动更新参数,得到新的、更准确的分割结果。

其他

半监督学习:是弱监督学习的分支,核心就是使用少量的带标注的数据的大量的无标注数据训练模型。弱监督学习在实际中更有价值,但是分割的效果相对较差。

研究热点

网络结构搜索
网络结构搜索的核心就是根据给定的搜索空间,按照一定的搜索策略,得到当前数据集下最优的网络结构,并进行自动的评估。
图卷积神经网络
图卷积神经网络可以代替传统的CNN进行分割任务,并且具有更优的性能与可解释性
神经网络的可解释性:顾名思义
多模态数据融合:将不同模态的数据(CT、MRI)处理之后,统一操作,得到最后的分割结果。也有研究关于如何使用一个统一的网络处理不同模态的数据。研究这方面的话,无法避免的要回答:该怎么融合多模态数据以提升分割效果?如何利用多模态数据之间的相关性?

讨论与展望

医学分割数据集

在这里插入图片描述

评估指标

PA:分类正确的像素占比
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

挑战和未来的研究方向

对于医学分割而言,除了提高准确度,还应该考虑类别不平衡问题、噪声干扰问题等问题。
研究方向1:网络结构的创新;针对特定数据集的更为有效的特征提取方法;卷积操作的设计;图卷积在医学分割的应用。
研究方向2:通过损失函数的设计,解决数据集类别不平衡问题。在不同的数据及下,使用BCE结合特殊的正则化项或者特殊的损失函数,是很常见的。而这两项可以通过领域知识或者先验知识进行设计。
研究方向3:迁移学习
研究方向4:交互式分割
研究方向5:图卷积神经网络
研究方向6:transformer与CNN的结合

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值