论文阅读:基于深度学习的肺癌放射基因组学图像生物标记和基因表达数据关联框架

Topic:

Image Bio-markers and Gene Expression Data Correlation Framework for Lung Cancer Radio-genomics Analysis Based on Deep Learning.

Abstract:

本文提出了一个基于深度学习的放射基因组学框架,构建了从肺部肿瘤图像到基因组数据的链接,并依次实现生成过程,形成了一个双向框架来映射多源医学数据。在基因组数据条件下,从自动编码器中提取图像特征。与传统的放射基因组学方法相比,它可以获得更多的相关特征。最后,我们使用生成性对抗网络将基因组数据转换为肿瘤图像,这给出了一个令人信服的结果来解释它们之间的联系。

Background:

目前,肺癌患者和癌症相关死亡人数在全世界癌症相关死亡人数中占有重要地位。超过70%的肺癌患者只有在出现晚期局部或转移性疾病的症状后才能被诊断出来。不幸的是,在能够定位诊断的情况下,存活率只有50%。最糟糕的是,只有不到20%的患者被诊断出患有早期疾病。在这种情况下,精准医疗因提供定制或个性化的医疗保健而越来越受欢迎,定量成像对诊断程序的显著改进做出了贡献。

传统上,放射学和图像引导介入治疗被用来处理诊断和提供解剖学信息。然而,所有这些方法都必须使患者的身体伤口疼痛,并且需要更长的时间才能愈合。为了克服这些缺点,放射组学从放射图像中提取图像特征和亚视觉特征,并使用最先进的机器学习技术,为更快、更准确的肺癌筛查提供独特的潜力。

放射组学和放射基因组学方法:包括四个步骤:图像获取、病变分割、特征提取和模型验证。在放射组学和放射基因组学的相关研究中,从医学图像中定性和定量地提取特征,包括语义(预后)和数字(统计)特征。然后,统计方法将使用基因集富集分析(GSEA)给出它们与基因组数据之间的相关性。这些工作提高了各种肿瘤学应用中的诊断和预后性能,并最终促进了精确医学的发展。

related work:Coroller等人建立了图像特征与临床数据之间的相关性,以预测肺腺癌的远处转移[13]。Abdollahi等人使用统计特征预测感音神经性听力损失,并获得较高的准确性【27】。基因组数据和图像之间的相关性可以表明基因变化与肿瘤变异之间的联系。Aerts等人提供了一种定量方法来关联基因表达谱数据和低水平图像特征,这可以在低成本癌症治疗中提供决策支持[14]。此外,Gevaert等人提出了一个映射语义特征和基因组数据的协议,并得到了一个接收器工作特征曲线(AUC)下面积大于等于65%的模型【29】。

利用深度学习放射分析:放射学和DL是医学成像领域的焦点。放射组学将图像特征应用于预后预测,由于其临床意义,这一点至关重要。DL由于其高精度,已被用于医学成像分析任务,如CT、MRI和PET。它可以提供有关肺癌治疗和预测中的诊断、预后数据、肿瘤表型和基因蛋白特征的信息。

生成模型可以根据输入的数据输出所需的图像。然而,条件生成对抗网(CGAN)利用额外的输入来融合更多的信息。由于生成过程中的额外条件y,与GAN相比,它产生了更精确的结果:

 考虑到不同类别图像的分布,Bao J.等人提出了一个基于V AE[36]的CV AE-GAN框架,该框架不同于GAN。该模型将不同类别的图像投影到不同的潜在空间,从而在给定特定类别的同时,更容易生成图像。受这项工作的启发,我们将提出类似的方法来使用基因组数据可视化肿瘤。

Methods:

首先,采用基于U-net的分割方法从原始CT图像中提取TR。然后,我们使用自动编码器对基因条件下的图像进行编码。从不同层次的编码器中提取图像特征。对这些特征、预后数据和基因进行了一系列分析实验,包括预后和GSEA,以证明这些多源数据之间的相关性。最后,一种改良的CVAE-GAN将基因转化为相应的TR并给出直观的结果。

                                                                         图一:整体结构

                                                                        图二: 分割阶段

肿瘤检测与分割:在分割阶段,我们采用U-net模型得到裁剪后的肿瘤图像。我们将原始CT图像输入U-net,并使其与相应的掩模相匹配。U-Net的体系结构如图2所示。在这里选择dice损失来测量预测掩模(PM)和地面真值(GT)之间的接触比:pi是以PM表示的像素值,ti是以GT表示的像素值,N表示图像的总像素数。

基因与图像的相关性:为了在CT图像序列中建立基因表达数据与肿瘤区域图像特征之间的相关性,我们建立了一个条件自动编码器来映射不同的源数据,以保持特征提取能力而不丢失匹配。

有两个关键问题:

1)基因数据的维数会极大地影响训练效果,从而导致模型崩溃。

2)基本的自动编码器可以提取多级图像特征。

因此,我们介绍了一种用于降维的基因编码器方法和一种用于知识相关特征提取的条件自动编码器。

                                                              图三:编码阶段 

基因编码器:基因组数据阵列的巨大尺寸显然是阵列预测的障碍,通常高达10k。为了解决这个问题,引入了一个用于基因数据降维的编码器,如下所示。设基因数据为矩阵Gm*n,m为项目数量,n为基因阵列长度。我们使用矩阵Wn*s(s是目标维数,比n小得多)乘以Gm*n来编码基因阵列。公式为y=gw。然后我们根据不同的基因将编码的基因阵列y标准化为[0,1]。基因编码器的详细信息如图4所示。

条件自动编码器:当编码器E的输出与编码基因y相匹配时,E的权重将趋向于将图像转换为y,但在此过程中图像信息将逐渐消失。为了避免这种情况,我们添加解码器D在E之后拟合原始图像X,使得E的每一层都能尽可能多地保留图像信息。此过程可以公式化为:

条件自动编码器可以提取与基因数据高度相关的图像特征,同时保留图像信息。

损失:

 

 

 

 

GCVAE-GAN用于病理可视化:CV AE-GAN[35]将图像和类别编码为高斯分布,然后在分类器和鉴别器的条件下将其解码为原始图像。由于多幅图像属于同一类别,因此它可以利用噪声生成新的类别内图像。但对于放射基因组学而言,每个肿瘤区域的CT图像只对应一个基因阵列,这导致了类内世代的崩溃。针对数据不平衡的问题,我们介绍了一种基因组条件变分自动编码器GAN(GCAVE-GAN)。具体来说,我们将CVAE-GAN改为拟合肿瘤图像:1)为了解决数据限制,我们将每个受试者分为不同的类别,每个类别包含多个不同的肿瘤切片。因此,我们的模型可以通过基因间的插值而不是不同的噪声来生成不同的tr。2) 我们申请编码的基因数据作为相应TRs的类别。为了放大基因空间中编码基因数据的距离,我们将阈值设置为0.5,并将基因值替换为0和1。因此,基因数据将作为控制模型生成过程的多类标签。

如图4所示,我们的模型由四部分组成:1)将TRs投影到潜在空间z的编码器E,2)将潜在向量z转换为TR的生成器G,3)判断图像是真是假TR的鉴别器D,4)将TR投影到基因空间的分类器C。为了更好地训练该模型,有六个损失函数来支持整个过程[35]。为了使D具有很强的区分真实TRs和合成TRs的判断能力,D必须最小化损失函数:

 为了解决G的梯度在训练时不稳定的问题,我们使用了文献[35]中提出的平均特征匹配目标:

 为了使G生成的TR属于相应的c类,G需要最小化函数:

 最终目标函数表示为:

 Experiments and Results:

在这一部分中,我们首先进行了三个实验,分别展示了模型在分割、相关和生成阶段的输出结果。然后,我们证明了整个框架在统计分析结果上与传统的放射基因组学研究具有可比性。最后,我们展示了产生结果对基因变化的影响,并证明基因表达的变化会影响肿瘤在放射学上的表现状态。

非小细胞肺癌(NSCLC):在本文中,我们选择非小细胞肺癌来构建我们的框架,并评估多源数据之间的联系。该数据集包含来自非小细胞肺癌队列的211名受试者。此数据集中的每个主题都包含一个CT系列,其中包含数百幅dicom图像。每个受试者的每个肿瘤都有相应的注释。由于这些注释只是肿瘤的坐标,我们请医生为我们重新标记肿瘤作为mask。

我们将NSCLC数据集分为训练集和测试集。该训练集有50名受试者,最多15000张CT图像,其中仅包含用于TRs分割的图像数据。测试集有161名受试者,每个受试者由CT图像及其基因表达数据组成。这161名受试者被用于后者的基因和图像关联。我们选择具有dice系数的U-net作为检测器来识别肿瘤的位置。我们使用Adam optimizer(32)以0.001的学习率对其进行了500个时代的训练。然后将其应用于测试集,以检测肿瘤的位置。TR的裁剪尺寸为128×128。裁剪后的TRs及其对应的基因数据构成相关阶段的数据集。

                                                                 图五:预测掩码

图5显示了UNet的预测掩码。属于肿瘤的像素用蓝色表示,这也显示了肿瘤的位置。 

对基因数据进行预处理,以删除基因没有可用值的受试者。最后,我们得到一个有113名受试者的数据集,每个受试者包含一个肿瘤的6个TRs。我们随机抽取90名受试者作为训练集,23名受试者作为测试集,测试集与训练集的比例为1:4。使用第节中的基因编码器对基因数据进行编码。然后将条件自动编码器训练为多任务网络。在训练过程中,包括水平/垂直翻转和旋转,也采用了数据扩充。我们使用Adam optimizer[32]对其进行训练,学习率为0.001,直到测试集的均方误差降至0.002。

条件自动编码器输出的图像如图6所示。自动编码器输出与原始TRs的相似性表明该模型已经充分提取了图像特征,不会受到几何变换的影响。同时,保持了基因与图像的相关性。为了验证从TRs中提取的图像特征的有效性,我们对基因数据和图像特征进行了层次聚类。我们采用ResNet50作为自动编码器的编码器。从每个残差块的最后一层提取不同层次的特征。然后对其进行局部线性嵌入(LLE)来降低特征的维数。最后,我们为每个主题从不同的层次获得了四组特征。功能部件的数量分别为64、256、512和1024。然后,我们对样本中的图像特征进行聚类,以证明特征与疾病之间的相关性(如图8所示)。与【14】中的研究一样,我们也进行了卡方检验,以验证DL特征与预后数据的显著相关性(如表1所示)。

 

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值