基于影像基因的肺结节分割、肺癌分类分期、CT影像预测基因突变 --董云云 论文阅读

一、背景、问题引入

        肺癌是世界范围内发病率和死亡率最高的恶性肿瘤之一。根据世界卫生组织的调查结果显示,世界范围内每年因患肺癌死亡的病例数不低于 160 万 。早期肺癌的诊断较为困难,约 75%的患者在确诊时处于中晚期,使得许多患者丧失了宝贵的治疗时间,因此肺癌患者总体存活率超过 5 年的概率不足 5%。调查结果显示,处于 I 期的肺癌患者的总体存活率能够接近 80%,II 期患者的总体存活率接近 70%,III 期~IV 期的生存率为 20%~40%。因此,对早期肺癌的精确诊断显得尤为重要。

(I)早期肺癌主要呈现形式——肺结节:

        1.实性结节一般边缘线条明显、呈现比较规则的形态,内部较为紧凑;

        2.非实性结节一般边缘线条不明显、呈现不规则的形状;

                磨玻璃结节(Ground Glass Nodule,GGN)其较低的密度,模糊的边界,

                复杂的形学特征以及其较高的恶性度,导致对其进行精准诊断和分割尤为困难

        3.亚实性结节通常边缘线条不太清晰、形状不太规则。

(II)不同亚型的肺癌的诊疗手段通常存在很大的差异,肺癌亚型分类很重要:

参考:(7 封私信 / 80 条消息) 肺癌分几种类型? - 知乎 (zhihu.com)https://www.zhihu.com/question/478901041/answer/2212872140

(1)非小细胞肺癌(NSCLC)     

        <1>腺癌(LUAD)

        腺癌在早期一般没有明显临床症状,往往在胸部X先检查是发现。多发于较小的支气管上皮主要<3cm的细支气管,80%为周围型。肿瘤生长缓慢,但有的病例较早发生血行转移,常在呈现脑转移症状后才发现肺部原发肿瘤。

        影像学表现:a. 含有空气支气管症或空泡症  b. 表现为毛玻璃样病变  c. 肿块有分叶、毛刺、部分靠近周边的肺癌还有胸膜凹陷。

        <2>鳞癌(LUSC)

        肺鳞癌大多起源于大的支气管,常见于中央型肺癌。多见于老年男性烟民。发生率与吸烟指数成正比,男性约为女性的10-30倍。肺鳞癌生长较为缓慢,病程较长,较晚发生转移,且通常先经淋巴转移,到晚期才发生血性转移。手术切除率高,对放射及化学治疗敏感。

        影像学表现:a. 息肉状腔内肿块或支气管阻塞   b. 肺门区肿块也很常见   c. 可侵犯局部组织、累几肺门淋巴结   d. 肺不张、肺实变、粘液亲嵌塞和支气管阻塞   e. 中央坏死和空洞

        <3>大细胞癌(LCC)

        临床发病率低,约一半起源于肺部大支气管,病变以周围型巨大肿块多件,常伴有纵膈淋巴结转移,一般男性多发于女性,并且发发于中老年人,占肺癌的10%-15%。大细胞肺癌恶性程度较高,分化程度低,容易发生脑转移,治疗效果不理想。目前以综合治疗为主,单纯手术或放化疗效果差。

        影像学表现:a. 早期出现肺炎表现,肺叶或全肺不张    b. 轮廓不规则,常见小的分叶或边缘模糊毛躁、毛刺    c. 少数出现钙化点

(2)小细胞肺癌(SCLC)

        是支气管肺上皮发生的高度恶性、未分化肿瘤。在各类肺癌中约占20%,发病年龄较轻,多见于男性,多数病人有吸烟史。小细胞肺癌生长快、浸润性强、转移早,早期可发生淋巴或血行转移。但是对放化疗和靶向免疫药物高度敏感。

        影像学表现:a. 主要表现为肺门赴京软组织肿块、密度不均不规则    b. 纵膈淋巴结肿大       c. 向支气管内突出或压迫支气管伴有胸腔积液

(III)分型主要讲癌细胞长啥样,而分期则主要说明癌细胞是否扩散:

        I  期代表肿瘤区域仅仅在肺部,没有进行扩散;

        II  期代表肿瘤扩散到肺部附近的淋巴结上,此时的肺癌可以进行外科切除;

        III 期代表肺癌扩散到肺部、淋巴结以及胸腔中部,外科医生很难将肿瘤区域完全切除;

        IV 期代表肺癌的最高级别分期,标志着肿瘤已经开始通过血液扩散到各个部位,例如肝脏,
                脑部等(中晚期)

(IV)最后聊聊分子基因分型:

        中晚期的肺癌患者通常以放疗、化疗结合靶向治疗的方式进行治疗,在靶向治疗前需进行基因突变的检测。内窥镜或细针穿刺是基因突变检测的常用的方法,基因突变检测过程中存在周期长、费用高、不容易长期监测等问题,因此,探索构建替代性且非侵入的辅助诊断模型来进行突变基因的预测具有重要的临床意义。

        正确使用靶向药物,有很大优势。比如对特定EGFR突变患者,相对化疗,使用EGFR靶向药物不仅副作用小,生活质量高,而且平均生存时间也会延长。由于靶向药物副作用小,而且能口服,因此患者在药物起效期间,可以保持几乎完全正常的生活。但靶向药物不适合所有人,它只对携带特殊基因突变的肺癌患者有效。这就像一把钥匙(靶向药物)对应一把锁(基因突变),我们首先要知道是什么锁,才能选择匹配的钥匙。

        ●EGFR突变肺癌,推荐使用EGFR靶向药物。

        ●ALK融合肺癌,推荐使用ALK靶向药物。

        ●ROS1突变肺癌,推荐使用ROS1靶向药物。

        如果用错靶向药物,是完全无效的,而且会耽误正规治疗,得不偿失。因此,使用靶向药之前,必须首先进行基因检测,明确癌细胞的突变类型。最后再强调一下,目前的靶向药物主要对应非小细胞肺癌,尤其是腺癌亚型中的突变类型,因此,如果被诊断为晚期非小细胞肺腺癌,应该尽快进行基因检测。相反,如果是鳞癌,或者小细胞肺癌之类,其中很少有患者的突变类型有对应的靶向药物,因此不推荐确诊后就做基因检测,还是应该主要考虑放化疗为主的治疗方案。

二、基于超体素 3D 区域增长的疑难型肺结节分割方法

1.主要贡献:

(1)结合了 PET / CT 图像信息,利用 PET 中的 SUV 值自动定位 CT中的种子点,有效减少用户交互并节省时间,同时确保结果的稳定和可重复性;

(2)以体素为基本单位构建超体素,超体素可以表征更多与结节有关的特征、均匀且光滑,能够很好地保持结节边界;

(3)构建模糊连通图,作为超体素之间相似性的度量。在整个区域增长过程中,以超体素为基本单位,以 3D 掩模为终止条件,无需设置阈值,避免了由于阈值的选择而导致的分割结果的不稳定性,提高了算法的适用性。

2.分割方法

 三个步骤:一是分离前景区域,并结合 PET 中的 SUV 值自动定位种子点;二是构造 3D 掩模和模糊连通图;三是在模糊连通图上进行超体素的 3D 区域增长。

接下来3 4 5 6 7 依次介绍

3.分离前景区域,自动定位种子点

(1)PET / CT 配准和肺实质分割

        CT 图像大小为 512×512 像素,PET 图像大小为 128×128 像素,先将 PET  图像和 CT 图像进行配准。采集的 CT 图像和 PET 图像如图 2-2(a)和图 2-2(b)所示。通过线性插值方法将PET图像的大小调整为512×512像素,计算互信息(相关程度)来配准PET图像和CT图像,当 PET 和 CT 之间的互信息达到最大时(1),完成配准。

        为了排除图像中不相关区域的干扰采用超像素分割方法进行肺实质的分割。 如图 2-2(d)和图 2-2(e)所示为 CT图像和配准图像中的肺实质分割结果。

(2)感兴趣区域(Region of Interest,ROI)的提取

         目的是为减少肺实质中非结节区域的干扰,提取以结节中心为中心64×64的 ROI 。

(3)前景区域的获取 

  

        分离其前景区域的目的是为了使血管和其他邻近组织与结节尽可能分开,GGN为磨玻璃结节。采用直方图均衡化的图像增强方法,来增强图像的对比度。采用动态阈值分割算法对前景和背景进行分离,分离后前景可能会出现一些“空洞”,本文采用空洞填充算法进行空洞填充并将其转换为前景区域。

(4)种子点的自动定位

        PET图像是指正电子发射断层扫描,原理是利用F18等放射性元素标记的示踪剂衰变时发射的正电子信息成像。

        PET 图像是基于人体代谢信息的,通过计算病灶区域内的 SUV 来获取其代谢信息,通常,肿瘤区域具有较高的新陈代谢和 SUV 值,此特征常用于癌症的诊断。肿瘤的代谢信息可使用公式(2-1)从可疑区域中计算 SUV 值得到。

         其中 tissue concentration 表示组织的放射性浓度,injected dose 表示注射示踪剂的剂量,body weight 表示患者的体重。

        当肺实质中某个区域的平均 SUV 值大于2.5 时,即认定为肺结节区域。选择 SUV 值最大的点(如果其大于等于 2.5)作为 PET图像 ROI 区域中的最佳种子点。

4.构造 3D 掩模

        3D 掩模是通过扩大前景区域而形成的。由于 GGN 的边界模糊性,初始掩模无法完全覆盖肺结节区域。 因此,扩大前景区域并确保掩模能够完全包围肺结节。(a)是包含种子点的原始 CT图像,(b)是动态阈值分割结果,(c)是空洞填充结果

 5.  3D超体素的构建

        传统的基于像素或基于超像素的分割方法仅适用于二维空间,无法表征结节的三维结构信息。同样地,传统的基于体素的 3D分割方法可以表征的空间信息有限,可能导致结果缺乏空间一致性。超体素分割是超像素分割在三维空间的扩展,是通过在空间中聚集一系列具有相似特征的相邻体素而形成的。超体素是包含多个体素的组合,可以提供更丰富的特征,包括与单个体素有关的统计信息,且超体素具有良好的边界依附性。本文采用简单线性迭代聚类算法(Simple Linear Iterative Clustering,SLIC)算法来生成超体素,生成的超体素会遵循图像的边界,更好地描述 GGN 的模糊云状边缘,从而实现更有效地分割。 

 6.模糊连通图的构建

        GGN 的边界模糊,因此对其准确分割较为困难。模糊连通图具有描述图像中不确定性和不均匀性的强大能力,使得其适用于描述 GGN 的模糊性和不确定性。超体素之间的模糊连通性使用模糊连通图来定义。通过计算超体素之间的模糊邻接和模糊亲和度来定义模糊连通图。

        模糊连通图算法相比于传统模糊连通图算法的主要改进之处是,将所有的像素点替换为超体素,以超体素为基本单位。通过计算掩模 M 中每个体素相对于种子体素 O 的模糊亲和力值来形成模糊连通图:

7.超体素的 3D 区域增长

        传统的区域增长方法以种子点为初始区域,根据特定的规则将具有相同特征的像素合并到当前区域,直到包含所有满足条件的像素,或者该区域不再增长为止。传统区域增长方法基于邻域像素相似度,然而 GGN 内部像素的模糊性和边界变化的不明显性,使得直接使用基于邻域像素的区域增长进行分割仍具有挑战性。  

        在本文的区域增长方法中,以超体素为基本单位,以 3D 掩模为约束,以模糊连通图为度量准则,执行基于超体素的区域增长,以获得 GGN 的 3D 分割结果。图 2-10 是3D 超体素区域增长示意图。其中,红色部分表示已完成增长的区域,蓝色部分表示正在增长的区域。算法 2-2 为模糊连通图上的 3D 区域增长算法。

        主要的改进为:根据 PET 中的 SUV 值自动定位 CT 中的种子点,避免了人工选择种子点的不可重复性;区域增长的基本单位为超体素;区域增长的增长规则的度量标准为模糊连通图中的模糊邻接度;区域增长的终止条件为 3D 掩模。

8.实验结果

(1)图 2-11 显示了不同算法的 3D 分割结果,从三个不同的视角呈现结果(前透视图,旋转 90°和 180°):

(a1-a3)红色结节是医师手动分割切片中的结节后进行区域增长的结果,作为金标准对比。
(b1-b3)紫色结节是高阈值的区域增长结果(b4-b6)为高阈值分割和金标准之间的结果对比。

结果:分割区域略大,可能包含一些正常组织,无法分离血管和结节

(c1-c3)蓝色结节是低阈值区域增长的结果(c4-c6)显示了低阈值分割与金标准的比较结果。

结果:欠分割,区域不够

(d1-d3)青色结节是最佳阈值区域增长结果(d4-d6)最佳阈值区域增长和金标准的比较结果。

结果:在拐角处更加清晰明确,与金标准重叠度高,但仍有少许区域分割不足或分割过度。

对结节周围的血管和组织的变化过于敏感。

(e1-e3)黄色结节为本章中提出方法的分割结果(e4-e6)显示了文中方法与金标准的比较结果。

结果:结果与金标准几乎完全重叠,分割边界可以更全面地覆盖整个结节,无需用户定义种子点,也无需设置区域增长阈值,因此可以确保分割结果稳定且可重复。

(2) 在 3D 区域增长结果中从上到下选择了最具代表性的六个切片,

(a1-a6)显示了两个医师 GGN 分割结果的交集,同样被用作单切片分割结果的金标准。

(b1-b6)显示了高阈值区域增长                                               分割结果大

(c1-c6)显示了低阈值区域增长                                                分割结果小

(d1-d6)是经过多次迭代后获得的最佳阈值区域增长               相对较好

(e1-e6)为本文提出分割模型的分割结果                                 接近金标准

本文模型分割结果:可以取得令人满意的分割效果,在所有情况下,结果都接近金标准。

(3)不同区域增长方法之间的Jaccard 系数,准确性,敏感性、特异性系数及所用时间的比较

 

三、基于 DNA 甲基化的 MLW-gcforest 肺癌亚型分类模型

1.背景介绍

        人工特征提取受限;

        基因数据样本小,维度大,机器学习处理基因数据导致模型训练过拟合,类别不均衡;

        由于深度模型的复杂性,深度学习则需要大量样本来学习网络参数,否则,容易陷
入过拟合和局部最优。

2.gcForest 模型

        随机森林(Random Forest)是集成学习(ensemble learning)的一个分支,集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。

        随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”我们很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,树 刚好指的是决策树,每棵决策树都是一个分类器,那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的 Bagging 思想。

        周志华教授团队提出了一种新颖的结合机器学习和深度模型多层结构的深度森林模型-gcForest 模型。

        gcForest 模型结合了机器学习算法和深度学习的思想,利用了深度学习的多层学习
优势,有效地避免了由于样本量小而导致的过拟合。

①第一个模块是多粒度扫描模块,类似于卷积。与卷积相似,输入高维样本数据时,多粒度扫描结构采用滑动窗口策略将高维数据切割为多实例特征向量,这些特征向量被送入不同类型的随机森林(完全随机森林和随机森林)中经过分类获得类向量。再将这些类向量串联起来作为多粒度扫描模块的输出,多粒度扫描结构使 gcForest 模型可以提取上下文结构感知信息。

②第二个模块是级联森林,通过组合随机森林来学习类分布特征。级联森林的每一层都从上一层的信息中进行学习,并将所学信息传递到下一层。每层的输出是经过不同随机森林分类后的类向量,将这些向量与第一个模块输出的类向量进行级联,输入到下一个级联层中。级联森林的每一层都输出置信概率向量。从多个级联结构中学习到更多有鉴别性的特征,并且可以获得更准确的预测。扩展新层时,采用k 折交叉验证来减少扩展时过拟合的风险。具体为,数据被划分为 k 折,依次选择 k-1折作为训练数据,余下的 1 折用作验证。从级联层的最后一个输出中计算出每个类别概率的平均值,将最大概率用作分类结果。如果验证集上的性能没有明显提高,则训练过程在达到最大迭代次数之前会提前终止。

        假设输入样本400 维,第一个滑动窗口是 100 维,每次滑动一个特征,共进行 301 次扫描,每滑动 100次获得一个新的特征向量,共生成 301 个 100 维的特征向量。

        假设三分类问题,森林分为3维度,随机森林A和完全随机森林B分别对样本训练,生成后向量拼接为301*3*2=1806维度,类似加上别的滑动窗口,作为多粒度扫描模块的输出。

         类间向量的生成——随机森林从输入到输出,每一颗决策树生成样本隶属于三类的类向量比例,再通过去平均的方式综合所有的结果得到多粒度扫描的结果。

         级联森林:蓝色为随机森林,黑色为完全随机森林,结合多粒度扫描的输出,训练后生成1806+3(三类)*4(四个森林)=1818,作为第二层的输入,一直往后1206+12=1212,不断扩展新层,每当生成新层时,都会在验证集中估算算法的整体性能,如果性能没有提升,扩展过程将被终止。 最后得到最佳分类性能结果。

3.MLW-gcForest 模型

        gcForest 模型没有考虑随机森林和完全随机森林的特征差异性导致的分类能力不同,有用维度特征没有得到应有的特征,应当赋予一定的权重,增加他们对分类结果的影响。

        本文提出多级加权 gcForest 模型(Multi-Weighted gcForest,MLW-gcForest)。

两个创新

        ①根据随机森林的不同的分类能力将不同的权重分配给不同的随机森林,充分利用不同随机森林之间的相互协同作用;
        ②提出排序优选算法,为不同滑动窗口下生成的特征向量赋予不同的权重,充分利用了不同滑动窗口下特征向量的互补性。

 两处改进

        ①根据每个随机森林的拟合质量,为不同随机森林赋予不同的权重,称为权重 α;

        ②赋予不同滑动窗口不同的权重,以捕获更多样的特征,增强特征学习能力,称此权重为 β。

(1)权重α的计算

         通过衡量分类器的分类性能来赋予权重。本文参考了AUC等量计算公式来计算,假设一个分类器 f  和一个数据集X,分类样本包含 m 个正样本和 n 个负样本,其中xi (1≤i≤m)是  f  为正样本的输出,yj (1≤j≤n)是 f  为负样本的输出。对于正样本,如果分类器  f  将样本分为正样本的概率大于负样本的概率,则正样本数加 1。同理计算负样本。将两类结果除以正样本和负样本的乘积,最终结果为 AUC。并对随机森林的权重归一化以计算每个随机森林的权重。

 (2)权重β的计算(排序优先算法)

        由于不同尺度滑动窗口生成的特征向量对最终分类结果产生不同的影响,考虑为不
同的滑动窗口分配不同的权重:

①输入1~Ns个样本数目,Nw个滑动窗口数,M0是原始特征的维度,Nc 是样本类别数。S为当前滑动窗口的大小(100,200,300),S0位步长,扫描后的特征向量的数量为Nv:向量维度为S:

②将Nv个S维的特征向量输入随机森林和完全随机森林中,各自输出Nc维度的类别向量,拼接成Nv*Nc的类向量,随机森林输出的记做RFv,完全随机森林输出的记为 CRFv

③RFv和 CRFv与α1和 α2(上节求得)相乘,拼接成长度为L=2*Nv*Nc的类向量。

④将L维的类向量按降序排序,排序后的类别向量的取前1/Nc,再求取其平均值。该计算近似当前样本𝑖在当前窗口的预测能力 Pre_abilityi  ,其中Des表示降序,con表示拼接

⑤重复步骤①-④,获得Ns个样本的预测能力,Pre_ability1,  …,Pre_abilityi, …, Pre_abilityNs。

⑥滑动窗口w的预测能力W_abilityw通过对Ns个样本的预测能力求平均值而获得:

⑦重复步骤①到步骤⑥,获得每个滑动窗口的预测能力W_ability1 ……W_abilityNw。

⑧归一化W_ability,以获得每个滑动窗口的预测权重βw,如公式(3-8)所示。获得每个窗口的权重β1, β2 …βNw。

4.实验与结果

        从 TCGA下载肺腺癌的 DNA 甲基化数据集,肺腺癌总共样本数为 706 例,亚型为 4 类(bronchioid(120),magnoid(83),squamoid(114),其他(389))。其中去除空值超过 50%的样本,可用样本为 317 例。

        曲线下面积(AUC),准确性(Accuracy,简记为 Acc),精确度(Precision,简记为 Pre),召回率(Recall)和 F1值分别用于评估算法的性能。

 模型处理小样本数据的能力:

 防止过拟合:

四、基于多组学基因数据的 IMLW-gcForest 肺癌分期模型

1.背景知识

        肺癌分期的常用方法之一是肿瘤淋巴结转移——TNM 分期系统。TNM 分期是基于原发性肿瘤特征(T),淋巴结侵袭程度(N)和是否存在转移(M)而实现的。T 表示原发性肿瘤,T0 表示没有原始肿瘤,T1~T4 依次表示随着肿瘤体积的增大,邻近组织的受牵连情况。N 表示淋巴结的侵袭,N0 表示淋巴结未受侵袭情况,N1~N3 分别表示淋巴结受侵袭程度。M 代表远处转移,M0 表示无远处转移,M1 表示有远处转移。 

        MLW-gcForest 模型仅仅针对单组学 DNA 甲基化数据,所以不能直接利用该模型进行分期。提出 IMLW-gcForest 模型,通过多组学基因数据并充分利用不同基因数据之间的互补性,实现对肺腺癌的准确的分期。

2.IMLW-gcForest 模型及多组学决策融合

(1)多组学基因数据预处理

        将 TCGA 中肺腺癌的多组学基因数据(基因表达,拷贝数变异和 DNA 甲基化)根据病例 ID 进行匹配。

        ①处理数据缺失值:对于一行或一列缺失值超过 50%的情况,采取直接删除该行或者该列的方法;对于一行或一列有缺失值并且小于 50%的情况,采取上下两行或前后两列的中位数进行填充。②数据归一化:采用 Z-score 标准化方法对多组学数据进行归一化。对于基因表达数据,将其离散化到1、0、-1,其中 1 表示高表达,0 表示正常表达、-1 表示低表达。对于拷贝数变异数据,将其离散化到2、1、0、-1、-2,其中 2 代表高水平扩增,1 代表拷贝数增加,0 表示无变化,-1 表示半合子缺失、-2 表示纯合子缺失。对于 DNA 甲基化数据,只需根据 Z-score 进行标准化,而无需进行离散化。

        样本名称:TCGA-XX-XXXX-01, TCGA-XX-XXXX-11,01表示正常癌症数据,11是癌旁数据,删除掉,并将基因名称一一对应。

        DNA 甲基化数据的特征维度为 485577,基因表达的特征维度为 60483。对于高维小样本数据,直接利用它们来建立分期模型通常是困难的。因此,采取适当的特征选择方法去除冗余特征,并保留最具鉴别价值的特征。

        采用 LASSO 回归进行特征选择,惩罚是回归:

        其中,r是数据的特征数,n  是样本数,δj是第j个变量的回归系数,z是约束值,即回归系数 δj的范式惩罚,z的值可以从 0 到无穷大,当z较小时,一些影响较小的变量系数被压缩为 0,删除这些变量以实现特征的选择。反之,当 z 足够大时,它不再构成实际约束,即选择了所有特征属性。

(2) IMLW-gcForest 模型 
        ......

(3)多组学模型决策集融合

3.实验与结果

(1)数据集和性能评估方式

TCGA下载肺腺癌的 DNA 甲基化数据,基因表达数据,拷贝数变异数据和相应的临床数据:

①甲基化为表观遗传修饰的一种形式,在 DNA 序列不变的情况下,可以改变其遗传表观。

②基因表达 RNA 测序数据是针对转录组进行的高通量的测序技术。

③拷贝数变异是基因突变的一种形式,可能影响细胞生长,增殖,凋亡。

④临床数据用于提取肺腺癌样本所处的分期。

        嵌套交叉验证被用于训练和测试模型,它是 K-折交叉验证的“多次测量求平均”。与标准交叉验证相比,嵌套交叉验证可以实现对模型性能的几乎无偏估计。内部循环用于执行参数调整,而外部循环用于计算模型性能的最终误差估计。以互斥的方式将数据集分为十折。每次选择其中九折执行内部循环(内部循环执行标准的十折交叉验证),余下的一折用作测试,此过程为外循环。外循环重复 10 次,直到每一折都做过测试集。因此,获得了十个测试结果。从嵌套的十折交叉验证中计算十个测试结果的平均值。 

        使用不同的机器学习算法进行比较:SVM,KNN,LR,RF,gcForest和 IMLW-gcForest,基于基因表达、DNA 甲基化、拷贝数变异和多组学数据构建肺腺癌分期模型,考虑常用的指标(AUC,准确性,精确度,召回率和 F1)来评估算法的性能。

(2)基于基因表达、DNA 甲基化、拷贝数变异的肺腺癌分期模型

a为甲基化,b为基因表达,c为拷贝数变异

 

(3)基于多组学基因数据的肺腺癌分期模型

(4)多组学基因数据模型和单种基因数据模型的比较

(5)模型在小样本数据集上的有效性 

五、CT 影像预测肺癌 EGFR/KRAS 基因突变的 MMDL 模型

1.背景

        非小细胞肺癌占所有肺癌的 80%以上,靶向治疗提高了非小细胞肺癌患者的五年生存率。靶向治疗前需明确关键致病基因的突变,非小细胞肺癌中已知的关键致病基因主要有表皮生长因子受体(Epidermal Growth Factor Receptor,EGFR)和大鼠肉瘤病毒癌基因(Kirsten Rat Sarcoma,KRAS)。通常内窥镜或细针穿刺的方式进行活检,可以获得 EGFR 和 KRAS 突变检测的标本。由于肺癌的异质性,能否在活检时对肿瘤进行精准定位也是影响 EGFR 和 KRAS 突变检测结果的重要因素。活检检测费用高,且提高了癌细胞转移的潜在风险。因此,探索非侵入性且易于操作的方法来对 EGFR 和 KRAS 的突变状态进行检测具有一定的临床价值。

        深度学习以其强大的特征提取能力,避免了用户繁琐的人工特征的提取,在人工智能医疗领域也逐步发展起来。深度学习比基于影像组学或机器学习的方法取得了更优异的预测性能,但扔需要提高,原因如下:

        ①深度学习模型依赖于大规模的数据集,而医学影像数据集往往难以大规模获取。

        ②不同基因突变类型之间肺结节的形态、纹理和外观有极大的差异性,如下

        

2.主要方法

        本文提出了一个多通道、多任务的深度学习模型(Multi-channel and Multi-task Deep Learning model  ,MMDL),用于从 CT 影像中提取深度特征,同时预测 EGFR 和 KRAS 突变状态。

主要贡献:

(1)较早使用深度学习模型同时预测多个基因突变状态的研究;

(2)提出的模型可以提取不同类型的肺结节特征,更加全面地表征结节,在训练过程中受益于多任务突变的预测,进一步提高了预测精度;

(3)加入了患者的病历信息,将与预测任务相关的先验知识整合到模型的训练过程中;

(4)提出的模型能够以端到端的方式进行训练。

三个步骤:

(1)从分割得到的 3D 肺结节中提取九个不同视图的 2D 切片,并从每个切片中提取结节 ROI;

(2)构建预训练的 Inception-attention-resnet 模型,将每个视图的 2D 结节 ROI 作为输入训练 Inception-attention-resnet 模型,进行多任务学习;

(3)将九个训练完成的 Inception-attention-resnet 模型进行自适应的决策级加权融合,输出基因突变预测结果。

下面依次介绍

3. ROI 的提取 

       首先使用线性插值对其进行重采样;接着以放射科医师指定的结节的中心为中心,依据本文第二章中提出的 3D 分割算法进行结节的分割,最终得到结节的 3D 分割结果;提取结节的 9 个不同视图下的 2D 切片,以充分表征结节特征。

       使用数据扩充技术来扩大训练数据集。具体通过对每个 2D 结节切片执行图像的平移,旋转,垂直翻转和水平翻转,为每个切片生成四个增强图像。然后,将所有图像统一调整为 299×299 的大小,以适应后续模型的输入。

4. Inception-attention-resnet  模型的构建 

(1)Inception-resnet-v2  模型

        该模型继承了 GoogLeNet 多尺度卷积核的优点,在模型中加入了 Restnet 模型的残差结构,加快了模型的训练过程,使得模型过拟合问题得到缓解。

<1>Steam  模块用于对输入 Inception 模块前的数据进行预处理,主要由多个尺度的卷积结构和池化结构以线性的方式串联构成,用于执行多次卷积以及池化操作。

<2>Reduction模块起到的是池化作用,该模块同样采用多尺度卷积核和池化的结构,并且采用了并行结构来缓减模型的过拟合。

<3>Inception-resnet模块是对Inception模块和resnet模块的整合。可以对输入图像并行地执行卷积运算(1*1、3*3 、7*7 )或池化操作,并将所有输出的特征图拼接为一个更深的特征图。由于不同尺寸的卷积核具有不同大小的感受野,因此通过不同大小的卷积核可以获得不同层次的输入信息。此外,进行并行卷积运算以及拼接不同类型的特征图,使模型能够更好地进行图像表征。残差结构可以减轻模型过拟合的风险,帮助训练具有更深的模型,  并加快模型的收敛。

(2) 注意力模块

        假设输入图像为 x,经过 steam 模块生成的特征图为 F,该特征图被输入到主干分支掩模注意力分支。假设由主干分支生成的特征图是Ti,c(x,φ), 𝜑是主干分支的参数。通过掩模注意分支学习到一个与主干分支输出大小相同的掩模Mi,c(x,θ),θ 是掩模注意分支的参数。使用 Sigmoid 函数对Mi,c(x,θ)进行归一化。由于掩模注意力分支能够生成注意力感知函数, Si,c (x)主要用于向主干分支生成的特征图  Ti,c(x)添加软权重。因此,加权后的输出特征图为:

        i表示第i个像素点,c表示生成特征图的通道数,掩模注意力分支在前向传播时作为特征选择器,在反向传播时则作为梯度更新的滤波器,因此可以随主干分支一起更新参数, 这使得注意力模块对噪声的鲁棒性很强,能有效减少噪声对梯度更新的影响:

        为了防止对主干特征Ti,c(x,φ)加软权重造成的性能下降,将加权后的输出特征图Oi,c(𝑥)与Ti,c(x,φ)进行按像素累加。因此,  最终该注意力模块的输出为:

 注意力:(5条消息) 神经网络学习小记录64——Pytorch 图像处理中注意力机制的解析与代码详解_Bubbliiiing的博客-CSDN博客_pytorch图像处理icon-default.png?t=M3K6https://blog.csdn.net/weixin_44791964/article/details/121371986

(3)Inception-attention-resnet 模型

(a)为 Stage1,其中 downsample 和 upsample 之间有两个残差单元;

(b)为 Stage2,其中 downsample 和 upsample 之间有一个残差单元;

(c)为 Stage3,downsample 和 upsample 之间无残差单元。

        不同注意力模块可以捕获不同层次的注意力特征。每个模块包含主干分支(trunk branch)和掩模注意力分支(mask branch),主干分支由多个 Inception-resnet 模块按顺序堆叠而成,用于特征提取(上),掩模注意力分支采用 bottom-up 和 top-down  的全卷积结构类似的结构(下)。

        对于输入,首先经过 bottom-up 结构进行多次 max pooling 以实现在经过多个 Inception-resnet 模块单元后快速增加感受野的目的,得到的输出结果被输入到 top-down 结构(结构与 bottom-up 对称)中,通过在 Residual 后进行多次线性差值将输入特征图的尺寸进行放大,其中执行线性插值的次数与 max pooling 次数一致,从而可以保证输入与输出的尺寸一致。再连接 2 个连续的尺寸为 1×1 的卷积层,最后连接一个Sigmoid 层进行归一化。因此,掩模注意力分支将作为特征选择器,可以生成注意力感知功能,从而增强了有用的特征并抑制了主干分支产生的特征的噪音,挑选更具辨别力的特征。此外,由于本文的 Inception-attention-resnet 的模块采用了三种不同类型的Inception-resnet 模块作为基本单元,可以广泛捕获不同类型的注意力。由于三种注意力模块作为构建模型的一部分可以在单个前馈过程中模拟自下而上的快速前馈过程和自上而下的注意反馈,因此本文提出的模型可以以端到端的方式进行训练。 

5. 迁移学习的运用

        为了避免深度模型在医学小样本数据集上的过拟合,首先在大规模公共数据集上对Inception-attention-resnet 模型进行预训练,并保存模型训练完成时的权重参数。将构建的 Inception-attention-resnet 模型在 CatVsDog 数据集上进行预训练。

        此外,由于采集的 CT 图像是灰度的,而预先训练的 Inception-attention-resnet 模型采用三通道彩色图像作为输入,因此,在输入图像之后插入一个尺寸为 3*3 的卷积层,从而将输入的单色图像转换为适用于模型的三通道图像。

6. 多通道决策融合

        多通道学习的基本策略是利用多个通道的一致性和互补性来实现更好的预测性能。

7. 实验与结果

数据集: 

        训练数据集由山西省的合作医院收集,其中包括 2017 年至 2018 年的 363 名 EGFR和 KRAS 突变患者。男性 156 人,女性 207 人。年龄从 43 岁到 80 岁,年龄中值为 62岁。抽烟者 236 例,非抽烟者 127 例,EGFR 突变型 164 例,野生型 199 例,KRAS 突变型 84 例,野生型 279 例。

        验证数据来自公共数据集 TCIA(http://www.cancerimagingarchive.net/)。TCIA 癌症影像数据由美国国家癌症研究所(National Cancer Institute, NCI)。TCIA 数据库储存有多种癌症类型和病灶部位的影像数据,还提供了患者相关的临床数据,例如,基本信息、治疗方式、基因病理分析、跟踪记录和治疗结果等。NSCLC 肺癌影像基因组数据集由211 例患者组成,其中 162 名患者满足实验要求,即 CT 和临床信息完整性。其中男性119 例,女性 43 例,抽烟者 137 例,不抽烟者 25 例。年龄 43~87 岁,中位年龄 69 岁。EGFR 突变型 25 例,野生型 102 例,未知或未收集 32 例。KRAS 突变 30 例,野生型 94例,未知或未收集到的 38 例。

 结果:

 模型的可视化:

行(a)、(b)和(c)分别表示肿瘤区域、可疑区域和激活的结节。

 

 多视图结果的对比:

        在单视图的预测中,结果如图 5-10 所示,视图 4、视图 6、视图 7 和视图 9 获得比其余视图更多的信息,因此获得了更好的预测结果。分析视图 4、视图 6、视图 7 和视图 9,均为对角面的切分,对角视图中包含了更多的结节信息,因此取得了更高的预测精度。表 5.4 比较了视图 4、6、7 和 9 在不同组合下的预测结果。结果表明,即使视图 4、6、7 和 9 的完整组合,也不能达到所有视图(视图 1 到视图 9)的预测性能。 

 

 

 

  • 2
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值