MIA文献阅读 —— 深度学习在医学图像分析中的最新进展及临床应用【2024】_再现性;深度学习(1)

u

t

o

a

s

s

o

c

i

a

t

o

r

auto-associator

auto−associator (Bourlard and Kamp, 1988),是一种只有一个隐藏层的神经网络,它通过最小化输入与其从潜在表示重建之间的重建损失来学习输入数据的潜在特征表示。简单自编码器的浅层结构限制了其表示能力,而具有更多隐藏层的深层自编码器可以提高其表示能力。通过堆叠多个自编码器并以贪婪的分层方式优化它们,深度自编码器或堆叠自编码器(

S

A

E

SAE

SAE)可以比浅层自编码器学习更复杂的非线性模式,从而更好地概括外部训练数据(Bengio等,2007)。

S

A

E

SAE

SAE由一个编码器网络和一个解码器网络组成,它们通常是对称的。为了进一步迫使模型学习具有理想特征的有用潜在表示,可以将稀疏自编码器(Ranzato等人,2007)中的稀疏性约束等正则化项添加到原始重建损失中。其他正则化自编码器包括去噪自编码器(Vincent et al ., 2010)和收缩自编码器(Rifai et al ., 2011),两者都被设计为对输入扰动不敏感。

自编码器是一种输入等于输出的模型,全连接神经网络组成最简单的自编码器只有三层结构,中间的隐藏层才是我们需要关注的地方,以隐藏层为界限,左边是编码器,右边是解码器,所以在训练过程中,输入才能在经过编码后再解码还原成原来的模样,原始数据和输出数据的误差称为 重构误差

假如我们通过一组数据训练出了我们的自编码器,然后我们拆掉了自编码器的解码器,既可以利用剩下的编码器来表征我们的数据了,隐藏层的神经元的数目远低于输入层,那么就相当于我们用更少的特征(神经元)去表征我们的输入数据,从而达到 降维 的功能

  • 稀疏自编码器:即普通的自编码器的隐藏层加一个

L

1

L1

L1正则项,也就是一个训练惩罚项,这样我们训练出的编码器表征的特征就更加稀疏,从而能得到很少且有用的特征项

  • 降噪编码器:就是输入换成了加噪的数据集,输出用原来的数据集去训练的自编码器,目的是习得降噪功能
    在这里插入图片描述

与上述经典的

a

u

t

o

e

n

c

o

d

e

r

s

autoencoders

autoencoders不同,变分

a

u

t

o

e

n

c

o

d

e

r

autoencoder

autoencoder (

V

A

E

VAE

VAE) (Kingma威林,2014)在概率性的工作方式学习观测数据之间的映射空间

x

R

m

x∈R^m

x∈Rm 和潜在的空间

z

R

n

(

m

n

)

z∈R^n(m>>n)

z∈Rn(m>>n)。作为一个潜变量模型,

V

A

E

VAE

VAE制定这个问题作为观察样品的最大化对数似

l

o

g

p

(

x

)

=

l

o

g

p

(

x

z

)

p

(

z

)

d

z

log p(x) =log ∫p (x | z) p (z) dz

logp(x)=log∫p(x∣z)p(z)dz,

p

(

x

z

)

p (x | z)

p(x∣z)可以很容易地使用神经网络建模,和

p

(

z

)

p (z)

p(z)是一个先验分布(如高斯)的潜在空间。然而,积分是难以处理的,因为它不可能对整个潜在空间进行采样。因此,根据贝叶斯规则,后验分布

p

(

z

x

)

p(z|x)

p(z∣x)也变得难以处理。为了解决这个棘手的问题,

V

A

E

VAE

VAE 的作者提出,除了使用解码器建模

p

(

x

z

)

p (x | z)

p(x∣z) 外,编码器还学习近似未知后验分布的

q

(

z

x

)

q(z|x)

q(z∣x)。最终,对于

l

o

g

p

(

x

)

log p (x)

logp(x)可以导出一个可处理的下界,也称为证据下界(EBLO)。

l

o

g

p

(

x

)

E

L

B

O

=

E

q

(

z

x

)

[

l

o

g

p

(

x

z

)

]

K

L

[

q

(

z

x

)

p

(

z

)

]

log p(x)≥ELBO = E_{q(z|x)}[log p(x|z)]−KL[q(z|x)||p(z)]

logp(x)≥ELBO=Eq(z∣x)​[logp(x∣z)]−KL[q(z∣x)∣∣p(z)],其中

K

L

KL

KL代表

K

u

l

l

b

a

c

k

L

e

i

b

l

e

r

Kullback-Leibler

Kullback−Leibler散度。第一项可以理解为重建损失,测量输入图像与从潜在表示重建的对应图像之间的相似性。第二项计算近似后验和高斯先验之间的散度(表1-4)。

后来提出了不同的

V

A

E

VAE

VAE 扩展来学习更复杂的表示。尽管概率工作机制允许其解码器生成新数据,但

V

A

E

VAE

VAE 无法具体控制数据生成过程。Sohn等人(2015)提出了所谓的条件

V

A

E

VAE

VAE (

C

V

A

E

CVAE

CVAE ),其中编码器和解码器学习的概率分布都是使用外部信息(例如图像类)条件化的。这使得

V

A

E

VAE

VAE能够生成结构化的输出表示。另一项研究探索在潜在空间中施加更复杂的先验。例如,Dilokthanakul等人(2016)提出了高斯混合

V

A

E

VAE

VAE (

G

M

V

A

E

GMVAE

GMVAE),该方法使用了先前的高斯混合,从而在潜在空间中获得更高的建模容量。我们建议读者参考最近的一篇论文(Kingma和Welling, 2019),以了解

V

A

E

VAE

VAE及其扩展的更多细节。

2.2.2 生成对抗网络(GANs)

生成对抗网络(GANs)是一类用于生成建模的深度网络,由Goodfellow等人(2014年)首次提出。对于这个架构,一个估计生成模型的框架被设计成直接从所需的底层数据分布中提取样本,而不需要显式地定义概率分布。它由两个模型组成:生成器

G

G

G和鉴别器

D

D

D。生成模型

G

G

G将从先验分布

P

z

(

z

)

P_z (z)

Pz​(z)中采样的随机噪声向量

z

z

z作为输入,通常是高斯分布或均匀分布,然后将

z

z

z映射到数据空间为

G

(

z

,

θ

g

)

G(z, θ_g)

G(z,θg​),其中

G

G

G是参数为

θ

g

θ_g

θg​的神经网络。表示为

G

(

z

)

G(z)

G(z)或

x

g

x_g

xg​的假样本与训练数据

P

r

(

x

)

Pr(x)

Pr(x)中的真实样本相似,这两种类型的样本被发送到

D

D

D中。鉴别器是第二个参数化为

θ

d

θ_d

θd​的神经网络,它输出一个样本来自训练数据而不是

G

G

G的概率

D

(

x

,

θ

d

)

D(x,θ_d)

D(x,θd​)。训练过程就像玩一个极大极小的双人游戏。对判别网络

D

D

D进行优化,以最大限度地提高给假样本和真实样本分配正确标签的对数似然,对生成模型

G

G

G进行训练,以最大限度地提高

D

D

D犯错的对数似然。通过对抗过程,期望

G

G

G逐渐估计底层数据分布并生成真实样本。

在此基础上,从两个方面改进了GAN的性能:1)不同的损失(目标)函数和2)条件设置。对于第一个方向,Wasserstein GAN (WGAN)是一个典型的例子。在WGAN中,提出了Earth-Mover (EM)距离或通常称为Wasserstein距离的Wasserstein-1来取代原始Vanilla GAN中的Jensen-Shannon (JS)散度,并测量真实数据分布与合成数据分布之间的距离(Arjovsky et al, 2017)。WGAN的批评者的优点是在JS发散饱和并导致梯度消失的地方提供有用的梯度信息。WGAN还可以提高学习的稳定性,缓解模式崩溃等问题

无条件生成模型不能显式地控制被合成数据的模式。为了指导数据生成过程,条件GAN (cGAN)是通过使用附加信息(即类标签)调节其生成器和鉴别器来构建的(Mirza和Osindero, 2014)。具体而言,将噪声向量z和类标号c共同提供给G;真实/虚假数据和类标签c一起作为d的输入,条件信息也可以是图像或其他属性,不局限于类标签。此外,辅助分类器GAN (ACGAN)提出了另一种策略,使用标签条件反射来改善图像合成(Odena等,2017)。与cGAN的鉴别器不同,ACGAN中的D不再提供类条件信息。除了分离真假图像,D还负责重建类标签。当强制D执行额外的分类任务时,ACGAN可以轻松生成高质量的图像。

2.2.3 自监督学习

在过去的几年中,无监督表示学习在自然语言处理(NLP)中取得了巨大的成功,其中大量未标记的数据可用于预训练模型(例如bert, Kenton和Toutanova, 2019)并学习有用的特征表示。然后在下游任务(如问答、自然语言推理和文本摘要)中对特征表示进行微调。在计算机视觉中,研究人员已经探索了一个类似的管道——首先训练模型以无监督的方式从原始未标记的图像数据中学习丰富而有意义的特征表示然后在标记数据的各种下游任务中对特征表示进行微调,如分类、目标检测、实例分割等。然而,在相当长的一段时间里,这种做法并不像NLP那样成功,相反,监督预训练一直是主要的策略。有趣的是,我们发现近两年这种情况正朝着相反的方向发生变化,越来越多的研究表明,自监督预训练的效果要高于监督预训练

在最近的文献中,术语“自我监督学习”与“无监督学习”交替使用;更准确地说,自监督学习实际上是指一种深度无监督学习的形式,输入和标签是在没有外部监督的情况下从未标记的数据本身创建的。这项技术背后的一个重要动机是避免监督任务,这些任务通常是昂贵和耗时的,因为需要建立新的标记数据集或在某些领域(如医学)获得高质量的注释。尽管标记数据稀缺且成本高,但在许多领域通常存在大量廉价的未标记数据未被利用。未标记的数据可能包含有价值的信息,这些信息要么很弱,要么没有出现在标记的数据中。自监督学习可以利用未标记数据的力量来提高监督任务的性能和效率。由于自监督学习比监督学习涉及更广泛的数据,以自我监督的方式学习的特征可以在现实世界中更好地泛化。自我监督可以通过两种方式进行:基于预训练任务的方法和基于对比学习的方法。由于基于对比学习的方法近年来受到了广泛的关注,我们将重点关注这一方向的更多工作。

预训练任务是为了学习下游任务的代表性特征而设计的,但预训练本身并不是真正感兴趣的(He et al, 2020)。预训练任务通过隐藏每个输入图像的特定信息(例如,通道,补丁等)来学习表征,然后从图像的剩余部分预测缺失信息。例子包括图像绘制(Pathak等人,2016)、着色(Zhang等人,2016)、相对补丁预测(Doersch等人,2015)、拼图(Noroozi和Favaro, 2016)、旋转(Gidaris等人,2018)等。然而,学习表征的可泛化性在很大程度上依赖于手工制作的预训练任务的质量(Chen et al, 2020a)。

对比学习依赖于所谓的对比损失,这至少可以追溯到(Hadsell et al ., 2006;Chopra et al ., 2005)。后来使用了这种对比损失的许多变体(Oord等人,2018;Chen et al ., 2020a;Chaitanya et al ., 2020)。从本质上讲,原始损失及其后续版本都强制执行一个相似度度量,对于正(相似)对最大化,对于负(不相似)对最小化,以便模型可以学习判别特征。下面我们将介绍对比学习的两个代表性框架,即动量对比(MoCo) (He et al ., 2020)和SimCLR (Chen et al ., 2020a)。

MoCo将对比学习描述为字典查找问题,该问题要求编码查询与其匹配键相似。如图3(a)所示,给定图像x,编码器对图像进行编码,产生特征向量,该特征向量用作查询(q)。同样地,使用另一个编码器,字典可以通过特征{k0, k1, k2,…}(也称为键)从大量图像样本{x0, x1, x2,…}中构建。在MoCo中,如果编码查询q和键来自同一图像的不同作物,则认为它们相似。假设存在一个与q匹配的字典键(k+),则将这两个项视为正对,而将字典中的其他键视为负对。作者使用InfoNCE (Oord et al, 2018)计算正对的损失函数如下:

在这里插入图片描述

从所有图像的采样子集中建立,大型字典对于良好的准确性非常重要。为了使字典更大,作者将以前图像批次的特征表示维护为一个队列:新键加入队列,旧键退出队列。因此,字典由来自当前批次和以前批次的编码表示组成。然而,这可能导致密钥编码器快速更新,使字典键不一致,也就是说,它们与编码查询的比较不一致。因此,作者建议在密钥编码器上使用动量更新来避免快速变化。这个键编码器被称为动量编码器。

SimCLR是另一个流行的对比学习框架。在这个框架中,如果两个增强图像来自同一个例子,则认为它们是正对;如果不是,它们就是负的一对。使正图像对特征表示的一致性最大化。如图3(b)所示,SimCLR由四个部分组成:(1)随机图像增强;(2)编码器网络(f(.))从增强图像中提取特征表示;(3)将特征表示映射到低维空间的小型神经网络(多层感知器(MLP)投影头)(g (.));(4)对比损失计算。第三个组件使SimCLR不同于它的前辈。以前的框架,如MoCo,直接计算特征表示,而不是首先将它们映射到低维空间。正如MoCo v2 (Chen et al ., 2020b)所证明的那样,该组件在获得令人满意的结果方面进一步证明了其重要性。

值得注意的是,由于自监督对比学习是非常新的,在撰写本文时,诸如MoCo和SimCLR等最新进展在医学图像分析领域的广泛应用尚未建立。尽管如此,考虑到现有文献中报道的自我监督学习的有希望的结果,我们预计应用这种新技术分析医学图像的研究可能很快就会爆发。此外,自监督预训练具有成为监督预训练的强大替代方案的巨大潜力。

2.3. 半监督学习

与只能在未标记数据上工作以学习有意义的表示的无监督学习不同,半监督学习(SSL)在模型训练期间结合了标记和未标记的数据。特别是,SSL适用于有限的标记数据和大规模但未标记数据可用的场景。这两种类型的数据应该是相关的,这样,未标记数据所携带的附加信息就可以用来补偿标记数据。我们有理由期望未标记的数据会带来平均的性能提升——对于只使用有限的标记数据执行任务来说,可能越多越好。事实上,这个目标已经被探索了几十年,20世纪90年代已经见证了在文本分类中应用SSL方法的兴起。半监督学习书籍(Chapelle et al, 2009)是读者掌握SSL与经典机器学习算法之间联系的良好来源。有趣的是,尽管其潜在的积极价值,作者提出的实证发现,未标记的数据有时会恶化的性能。然而,这一实证发现似乎在最近的深度学习文献中发生了变化——越来越多的作品(主要来自计算机视觉领域)报道,深度半监督方法通常比高质量的监督基线表现得更好(Ouali et al, 2020)。即使改变标记和未标记数据的数量,仍然可以观察到一致的性能改进。同时,深度半监督学习已成功应用于医学图像分析领域,降低了标注成本,取得了更好的性能。我们将流行的SSL方法分为三类:(1)基于一致性正则化的方法;(2)基于伪标注的方法;(3)基于生成模型的方法。

第一类方法都有一个相同的想法,即如果应用了一些扰动(例如,添加噪声,数据增强),则对未标记示例的预测不应该发生显着变化。SSL模型的损失函数一般由两部分组成。更具体地说,给定一个未标记的数据示例x及其扰动版本x³,SSL模型输出logits fθ (x)和fθ (x³)。在未标记的数据上,目标是通过最小化均方误差d(fθ (x), fθ (x))来给出一致的预测,这导致了未标记数据上的一致性(无监督)损失Lu。在标记的数据上,计算交叉熵监督损失Ls。通过一致性约束进行正则化的SSL模型示例包括Ladder Networks (Rasmus et al ., 2015)、ρModel (Laine and Aila, 2017)和Temporal Ensembling (Laine and Aila, 2017)。最近的一个例子是平均教师范式(Tarvainen和Valpola, 2017),由教师模型和学生模型组成(图4)。学生模型通过最小化未标记数据上的Lu和最小化标记数据上的Ls来优化;教师模型作为学生模型的指数移动平均线(EMA),用于指导学生模型进行一致性训练。最近,诸如无监督数据增强(UDA) (Xie等人,2020)和MixMatch (Berthelot等人,2019)等几项工作将SSL的性能提升到了一个新的水平。

对于伪标记(Lee, 2013), SSL模型本身为未标记的示例生成伪注释;伪标记样例与标记样例联合使用来训练SSL模型。该过程经过多次迭代,伪标签的质量和模型的性能都得到了提高。naïve伪标记过程可以与Mixup增强相结合(Zhang等人,2018a),以进一步提高SSL模型的性能(Arazo等人,2020)。伪标注也可以很好地用于多视图协同训练(Qiao et al ., 2018)。对于每个视图的标记样例,共同训练学习一个单独的分类器,然后使用该分类器为未标记的数据生成伪标签;协同训练最大化了在未标记示例的每个视图之间分配伪注释的一致性。

对于第三类方法,gan和VAEs等半监督生成模型更侧重于解决目标任务(例如分类),而不仅仅是生成高保真样本。这里我们简要地说明了半监督GAN的机制。使GAN适应半监督设置的一个简单方法是修改鉴别器来执行额外的任务。例如,在图像分类任务中,Salimans et al(2016)和Odena(2016)通过强迫DCGAN充当分类器来改变DCGAN的判别器。对于未标记的图像,鉴别器的功能与普通GAN一样,提供输入图像为实的概率;对于已标记的图像,鉴别器除了生成真实概率外,还预测其类别。然而,Li等人(2017)证明,单个鉴别器可能无法同时实现这两个任务的最佳性能。因此,他们引入了一个独立于生成器和鉴别器的附加分类器。这种由三个组件组成的新架构被称为三重gan

2.4 提高性能的策略

2.4.1 注意力机制

注意力源于灵长类动物的视觉处理机制,它选择相关感官信息的子集,而不是使用所有可用的信息进行复杂的场景分析(Itti et al, 1998)。受这种专注于输入的特定部分的想法的启发,深度学习研究人员将注意力整合到开发不同领域的先进模型中。基于注意力的模型在与自然语言处理(NLP)相关的领域取得了巨大的成功,例如机器翻译(Bahdanau等人,2015;Vaswani et al, 2017)和图像字幕(Xu et al, 2015;You et al, 2016;Anderson et al, 2018)。一个突出的例子是Transformer架构,它完全依赖于自关注来捕获输入和输出之间的全局依赖关系,而不需要顺序计算(Vaswani et al, 2017)。注意机制在计算机视觉任务中也很流行,例如自然图像分类(Wang et al ., 2017;Woo等人,2018;Jetley et al ., 2018), segmentation (Chen et al ., 2016;Ren and Zemel, 2017)等。在处理图像时,注意力模块可以自适应地学习“参加什么”和“在哪里”,以便模型预测以最相关的图像区域和特征为条件。根据图像中被关注位置的选择,注意机制大致可以分为软注意和硬注意两类。前者确定性地学习所有位置的特征加权平均,而后者随机抽取特征位置的一个子集来参加(Cho et al, 2015)。由于硬注意不可微,软注意尽管在计算上更昂贵,却得到了更多的研究努力。根据这一可微分机制,不同类型的注意得到了进一步发展,如(1)空间注意(Jaderberg等人,2015),(2)通道注意(Hu等人,2018a),(3)空间和通道注意的结合(Wang等人,2017;Woo等人,2018)和(4)自我关注(Wang等人,2018)。读者可以参考Chaudhari等人(2021)的优秀评论,了解注意力机制的更多细节。

2.4.2 领域知识

大多数成熟的深度学习模型最初设计用于分析自然图像,当直接应用于医学图像任务时,可能只产生次优结果(Zhang等人,2020a)。这是因为自然图像和医学图像在本质上是非常不同的。首先,医学图像通常表现出高度的类间相似性,因此一个主要挑战在于提取细粒度的视觉特征,以了解对做出正确预测很重要的细微差异。其次,典型的医学图像数据集比包含数万到数百万图像的基准自然数据集要小得多。这阻碍了计算机视觉中高度复杂的模型在医学领域的直接应用。因此,如何定制医学图像分析模型仍然是一个重要的问题。一种可能的解决方案是集成适当的领域知识或特定于任务的属性,这已被证明有利于促进学习有用的特征表示并降低医学成像环境中的模型复杂性。在这篇综述文章中,我们将提到各种领域知识,例如MRI和CT图像中的解剖信息(Zhou et al ., 2021, 2019a),体积图像中的三维空间上下文信息(Zhang et al ., 2017;庄等,2019;Zhu等人,2020a)、同一患者的多实例数据(Azizi等人,2021)、患者元数据(Vu等人,2021)、放射学特征(Shorfuzzaman和Hossain, 2021)、随附图像的文本报告(Zhang等人,2020a)等。对如何将医学领域知识整合到网络设计中有兴趣的读者可以参考Xie等人(2021a)的工作。

2.4.3 估计的不确定性

当涉及到具有高安全性要求的临床环境(例如癌症诊断)时,可靠性是关键问题。模型预测容易受到数据噪声和推理误差等因素的影响,因此需要量化不确定性并使结果可信(Abdar et al, 2021)。不确定性估计常用的技术包括贝叶斯近似(Gal和Ghahramani, 2016)和模型集合(Lakshminarayanan等人,2017)。Monte Carlo dropout (MC-dropout)等贝叶斯方法(Gal和Ghahramani, 2016)围绕着近似神经网络参数的后验分布。集成技术结合多个模型来测量不确定性。对不确定性估计感兴趣的读者可以参考Abdar等人(2021)的综合综述。

3 深度学习应用

3.1 分类

医学图像分类是计算机辅助诊断(CADx)的目标,其目的是区分良性病变和恶性病变,或者从输入图像中识别某些疾病(Shen et al ., 2017;van Ginneken et al, 2011)。基于深度学习的CADx方案在过去十年中取得了巨大的成功。然而,深度神经网络通常依赖于足够的注释图像来保证良好的性能,这一要求可能不容易被许多医学图像数据集满足。为了缓解缺乏大型注释数据集的问题,已经使用了许多技术,而 迁移学习 无疑是最主要的范例。除了迁移学习之外,其他几种学习范式,包括无监督图像合成、自监督半监督学习,在有限的注释数据下显示出了巨大的性能增强潜力。我们将在下面的小节中介绍这些学习范式在医学图像分类中的应用。

3.1.1 监督分类

从AlexNet (Krizhevsky等人,2012)开始,各种具有越来越深的网络和更大的表示容量的端到端模型被开发出来用于图像分类,例如VGG (Simonyan和Zisserman, 2015), GoogleLeNet (Szegedy等人,2015),ResNet (He等人,2016)和DenseNet (Huang等人,2017)。这些模型取得了优异的结果,使深度学习不仅在开发高性能CADx方案方面成为主流,而且在医学图像处理的其他子领域也成为主流。

然而,深度学习模型的性能在很大程度上取决于训练数据集的大小和图像注释的质量。在许多医学图像分析任务中,特别是在3D场景中,由于数据采集和注释困难,建立足够大且高质量的训练数据集可能具有挑战性(Tajbakhsh等人,2016;Chen et al ., 2019a)。监督迁移学习技术(Tajbakhsh et al ., 2016;Donahue et al ., 2014)通常用于解决训练数据不足的问题并提高模型的性能,其中ResNet (He et al ., 2016)等标准架构首先在源域中使用大量自然图像(例如ImageNet (Deng et al ., 2009))或医学图像进行预训练然后将预训练的模型转移到目标域并使用更少的训练样本进行微调。Tajbakhsh等人(2016)表明,经过充分微调的预训练cnn的表现至少与从头训练的cnn一样好。事实上,迁移学习已经成为各种模式下图像分类任务的基石(de Bruijne, 2016),包括CT (Shin等人,2016)、MRI (Yuan等人,2019)、乳房x光检查(Huynh等人,2016)、x射线检查(Minaee等人,2020)等。

什么是迁移学习?

  • 利用数据,任务,模型间的相似性,将训练好的内容应用到新的任务上被称为迁移学习
  • 由于这一过程发生在两个领域间,已有的知识和数据,也就是被迁移的对象被称为源域,被赋予“经验”的领域被称为目标域

迁移学习不是具体的模型,更像是解题思路,我们使用迁移学习的原因有很多:

  • 比如目标领域的数据太少,需要标注数据更多的源域的帮助
  • 有时是为了节约训练时间,有时是为了实现个性化应用

在监督分类范式中,不同类型的注意力模块被用于提高性能和更好的模型可解释性(Zhou et al ., 2019b)。Guan等人(2018)介绍了一种基于ResNet-50的注意力引导CNN (He et al, 2016)。使用来自全局x射线图像的注意力热图来抑制大的不相关区域,并突出显示包含胸腔疾病判别线索的局部区域。该模型有效地融合了全局和局部信息,取得了良好的分类性能。在另一项研究中,Schlemper等人(2019)将注意力模块分别纳入VGG (Baumgartner等人,2017)和U-Net (Ronneberger等人,2015)的变体网络中,用于2D胎儿超声图像平面分类和3D CT胰腺分割。每个注意力模块被训练关注输入图像中的局部结构子集,这些局部结构包含对目标任务有用的显著特征。

3.1.2 无监督的方法

无监督图像合成:经典的数据增强(例如,旋转,缩放,翻转,平移等)简单但有效地创建更多的训练实例以获得更好的性能(Krizhevsky et al, 2012)。然而,它不能给现有的训练样例带来很多新的信息。鉴于gan具有学习隐藏数据分布和生成真实图像的优势,gan已被用作医学领域中更复杂的数据增强方法

什么是 GAN(生成对抗网络)?

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

至少与从头训练的cnn一样好。事实上,迁移学习已经成为各种模式下图像分类任务的基石(de Bruijne, 2016),包括CT (Shin等人,2016)、MRI (Yuan等人,2019)、乳房x光检查(Huynh等人,2016)、x射线检查(Minaee等人,2020)等。

什么是迁移学习?

  • 利用数据,任务,模型间的相似性,将训练好的内容应用到新的任务上被称为迁移学习
  • 由于这一过程发生在两个领域间,已有的知识和数据,也就是被迁移的对象被称为源域,被赋予“经验”的领域被称为目标域

迁移学习不是具体的模型,更像是解题思路,我们使用迁移学习的原因有很多:

  • 比如目标领域的数据太少,需要标注数据更多的源域的帮助
  • 有时是为了节约训练时间,有时是为了实现个性化应用

在监督分类范式中,不同类型的注意力模块被用于提高性能和更好的模型可解释性(Zhou et al ., 2019b)。Guan等人(2018)介绍了一种基于ResNet-50的注意力引导CNN (He et al, 2016)。使用来自全局x射线图像的注意力热图来抑制大的不相关区域,并突出显示包含胸腔疾病判别线索的局部区域。该模型有效地融合了全局和局部信息,取得了良好的分类性能。在另一项研究中,Schlemper等人(2019)将注意力模块分别纳入VGG (Baumgartner等人,2017)和U-Net (Ronneberger等人,2015)的变体网络中,用于2D胎儿超声图像平面分类和3D CT胰腺分割。每个注意力模块被训练关注输入图像中的局部结构子集,这些局部结构包含对目标任务有用的显著特征。

3.1.2 无监督的方法

无监督图像合成:经典的数据增强(例如,旋转,缩放,翻转,平移等)简单但有效地创建更多的训练实例以获得更好的性能(Krizhevsky et al, 2012)。然而,它不能给现有的训练样例带来很多新的信息。鉴于gan具有学习隐藏数据分布和生成真实图像的优势,gan已被用作医学领域中更复杂的数据增强方法

什么是 GAN(生成对抗网络)?

[外链图片转存中…(img-EderSSPB-1714705874990)]
[外链图片转存中…(img-emtGS0le-1714705874991)]

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 28
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值