Models Genesis: Generic Autodidactic Models for 3D Medical Image Analysis精读

本文深入探讨了自监督学习在3D医学影像分析中的潜力,通过非线性变换、像素重组等方法,设计了一种无需人工标签的自我监督框架——Models Genesis。实验结果显示,预训练的3D模型在多个医学影像任务中优于从头开始训练的模型,且在某些情况下可与2D ImageNet预训练模型相媲美。Models Genesis不仅在肺结节检测等领域表现出色,而且为创建大规模医学影像数据集提供了新途径,有望成为医学影像分析的有力工具。
摘要由CSDN通过智能技术生成

数据集

肺结节,PE肺栓塞,肝脏,PD肺部疾病
CIMT RoI: 脑肿瘤

LUNA16数据集是最大公用肺结节数据集LIDC-IDRI的子集,LIDC-IDRI它包括1018个低剂量的肺部CT影像。LIDC-IDRI删除了切片厚度大于3mm和肺结节小于3mm的CT影像,剩下的就是LUNA16数据集了。

奇怪数据集:来自“亚临床动脉粥样硬化发病率作为退役职业足球运动员心血管风险的指标”论文 研究中风上肢偏瘫患者进行强制性使用运动疗法(constraint-inducedmovement therapy , CIMT)
在这里插入图片描述
(intinma-media interface segmentation)内中膜界面分割

CIMT定义为颈动脉远端管腔内膜和中膜外膜界面之间的距离。CIMT测量是通过手动追踪感兴趣区域ROI(region of interest)中的腔内膜和中外膜界面,然后计算被追踪界面之间的的平均距离。本文将此界面分割任务制定为3类分类问题,其中目标是将ROI中的每个像素分为3类:腔内膜界面上的像素,中-外膜界面上的像素,接口像素。(3分类)

迁移学习

医学图像分析和自然图像分析在方法上出入不大,都是用目前最流行的深度神经网络来做分类,分割,检测等等。和自然图像比,医学图像一个很棘手的问题是标注起来很困难,往往在大多数的情况下,数据规模很难和自然图像数据库相匹及。

迁移学习”是一种很流行的方法,因为这样模型不是从零开始学习,而是从大量的数据集中预训练得到的模型开始。这样,你就可以利用以前的学习成果,让模型从一个更优的起点开始训练,稳赢在起跑线上。迁移学习可以让我们在他人训练过的模型基础上进行小改动便可投入使用到自己的问题中来。在计算机视觉领域,ImageNet数据集会被广泛用作预训练,因为它规模足够大(超过1400万张标记的图片),其中120万个图像分为1000个类别有助于训练一个普适模型。这1,000个分类基本上都来源于我们的日常生活,比如说猫猫狗狗的种类,各种家庭用品,日常通勤工具等等。在迁移学习中,这些预训练的网络对于ImageNet数据集外的图片也表现出了很好的泛化性能,也包括医学图像。事实上,在医学影像处理中,从ImageNet的预训练模型开始做迁移学习已经成为了一个标配,编程实现也非常简单,那些预训练好的模型结构和权重都可以直接下载使用。

从ImageNet预训练的模型在迁移到医学影像中存在两个问题:

  1. 模型的输入必须是二维的。为了使用预训练好的模型,下游的图像应该尽量保持预处理和ImageNet一致。ImageNet中的自然图像都是二维的RGB图,而大多数的医学影像都是三维的,比如CT,核磁共振(MRI),长宽高中包含了大量的空间结构信息。如果用ImageNet中的预训练模型,势必要把三维的影像切开成一片片的二维图,然后输入到模型中去训练,这样做确实利用了迁移学习的优点,但是破坏了大量有用的,并且对于医学影像来说很独特也很重要的空间信息。

  2. 医学图像和自然图像差别太大。ImageNet的预训练模型在同样是自然图像的数据集中迁移学习表现卓越,那是因为大多数常见的物品都能被预训练所涵盖,只需要稍做微调,模型就可以适用于其他特定的任务。但对于医学影像,它们的成像原理和自然图像完全不同,图像的明暗有着特殊的含义,图像中包含的人体内部结构也是自然图像数据集中完全没有的。因此,从自然图像迁移学习到医学影像的效果并没有像自然图像之间的迁移学习那么的明显。

一般而言,用3D的神经网络直接处理三维的图像信息效果会好于2D的网络。我们发现,对于三维的医学影像,目前还没有普遍可用的3D预训练模型。由于模型参数多,数据量小,从头开始训练一个3D的模型又很难收敛,容易过拟合或者欠拟合。

为何不像ImageNet一样预训练一些普遍适用的3D模型,专门用于下游的三维医学影像处理呢?

要回答这个问题并不容易,要知道像ImageNet这样规模的标记数据集是很难在医学影像上实现的。即便是猫啊狗啊这样的标签,人工地标记1400万张图也能花费大量的时间和资金,而像医学影像这类的,如何去设计一个个的标签?本身医生在很多情况下也吃不准,需要用到活体检验来取得比较客观的疾病标签。并且有那么繁杂疾病类别,大类里面还细分小类,很容易出现标签的不平衡问题。总之,医学影像的ImageNet还是很难建的,很期待这样大规模的标记医学数据集能早日问世。在大规模标记的医学影像数据集问世之前,也不是什么也做不了。

我们在寻找一个不需要任何人工标签,也能让深度模型从数据本身直接学习到视觉信息的方法。自监督学习(self-supervised
learning)可以被看作是深度学习(“人工智能”)的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。在计算机视觉,尤其是自然图像处理方面,自监督学习已经受到了广泛的关注,大量的自监督学习方法的提出,使得预训练的模型能几乎和ImageNet预训练相媲美(Goyal et al. arXiv 2019)。(Goyal, P.,
Mahajan, D., Gupta, A. and Misra, I., 2019. Scaling and benchmarking
self-supervised visual representation learning. arXiv preprint
arXiv:1905.01235.)值得注意的是,自监督学习完全不需要人工标签数据,它的“人工”智能体现在我们如何去设计这个自监督的机制。我们认为自监督学习能在医学影像处理提供强有力的支持是基于两点:

  1. 医学影像数据本身不比自然图像少。

  2. 模型可以直接在医学影像数据上学习特征。

刚才讲到如何去设计自监督机制是非常考验创造力的,通过这样一个机制,模型可以从多源的数据中,学习到普适的视觉特征,能很好地泛化到多个任务。因此自监督学习花心思到点不在于数据收集和专业标注上,而是设计有效的自我学习机制。我们提出的自监督学习方法归纳起来就是在原图上做一些改动,然后让模型去还原原图。如此一来,原图本身成为了监督模型训练的标签,符合自监督学习的初衷,从数据中直接学习特征。

框架结构

在图像恢复任务中,我们将L1-norm distance L1范数距离用作损失函数。

我们统一的自我监督学习框架概述。给定一个图像,我们首先从随机位置提取任意大小的补丁X,然后如图4所示对它们进行变换。ModelGenesis通过从变换后的X中恢复原始补丁X来学习视觉表示

我们提出的自我监督学习框架由两个部分组成:图像转换(图4中所示)和图像恢复,其中采用编码器-解码器体系结构的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值