目录
摘要
本文探讨基于多模态影像组学联合临床特征构建的乳腺癌生存预测模型并与传统预测模型比较。回顾性收集1096例乳腺癌患者的临床及影像资料。选定T2加权像(T2WI)与动态对比增强磁共振成像(DCE-MRI)序列中第二时相的图像,聚焦于显示病灶最为显著的层面。在相应的钼靶(MG)检查图像中,精确标定感兴趣区域(ROI),对标定的ROI进行特征提取,以获取病灶的关键信息。通过Lasso进行特征降维,运用机器学习分类器构建多模态影像组学模型并选择预测性能最佳分类器建立MRI、MG影像组学模型。采用单因素和多因素Cox回归筛选临床高危因素构建临床模型。通过结合影像组学资料和临床高危因素,构建多模态神经网络生存预测模型,并与传统预测模型比较。采用受试者工作特征曲线及曲线下面积评价模型预测乳腺癌患者生存结局的性能。1096例乳腺癌患者平均年龄58.47±13.22;组织学类型中浸润型占多数,987例占比90.1%。两组年龄、T、N、M分期以及Stage分期差异有统计学意义(P<0.01)。两组性别、组织学类型比较,差异无统计学意义(P>0.05)。RF结果显示,AC034139.1、AL133482.1、AC104211.1、AC034139.1、AL133482.1、AC104211.1等基因对乳腺癌死亡预测的影响较大;非基因特征,n_stage_category和stage_numeric对乳腺癌死亡也存在着较大影响。LINC02884、AP003548.1、MIR22HG、LINC02185与乳腺癌不良事件有关,可能是乳腺癌死亡的危险因素;m_stage_category、WDFY3-AS2、AC009269.4、AC020637.1、AC004554.1、MAGI2-AS3、AC135178.2、AP003071.4与乳腺癌不良事件呈负相关,可能是乳腺癌不良事件的保护因素。临床模型AUC 值和准确率分别为 0.71、0.86,能够较好第区分BC患者生存结局。多模态神经网络生存预测模型AUC值0.893。
多模态神经网络生存预测模型有效地将CT影像、临床数据和病理数据的特征结合起来,进行BC患者生存预测。本研究创新的加权融合机制增强了模型的灵活性和鲁棒性,模型预测良好,具有一定的预测价值。
关键词:乳腺癌;多模态分析;生存分析;多数据融合
1.前言
乳腺癌(Breast Cancer,BC)是女性最普遍的癌症,乳腺癌是全球三种最常见的癌症之一,也是女性癌症死亡的第二大原因[1, 2]。BC来源于乳腺上皮细胞的增殖失控而形成的恶性肿瘤,可能与家族史、BC相关基因、性激素、营养与饮食、环境因素等有关[3, 4]。BC发病率在不同国家和地区之间存在显著差异[5, 6]。2020年中国约有352300例BC发病病例和74200例死亡,导致260万残疾调整生命年[7]。BC已成为威胁妇女健康的主要恶性肿瘤,BC的生存期预测对于患者的心理康复、治疗方案的制定以及医疗资源的合理分配都具有重要意义。精准的生存期预测可以帮助患者和医生更好地了解病情,制定更加个性化的治疗方案,从而提高治疗效果和患者的生存质量。
传统的乳腺癌生存期预测方法往往依赖于单一模态的数据,如临床数据、影像学数据或基因组学数据等[8]。然而,单一模态的数据往往只能提供有限的信息,无法全面反映患者的病情和预后情况。相比之下,多模态数据(Multimodal Data Fusion)能够整合来自不同层面的信息,提供更全面、更准确的生存期预测[9]。癌症的形成与发展是一个复杂的多层面病理过程,涵盖了基因组转录组、蛋白组和代谢组等多个方面。单组学数据仅能揭示某一层面的变化,对于全面识别驱动突变存在局限性。通过整合多组学数据进行综合分析,能够更有效地识别出驱动基因与通路,极大地促进了对癌症形成与发展的理解[10]。癌症的诊断与治疗方面,多组学数据整合分析发挥着至关重要的作用[11-13]。随着技术的不断发展,多模态数据在乳腺癌生存期预测中的应用越来越广泛[14-17]。通过整合临床数据、影像学数据、基因组学数据以及病理图像等多种模态的数据,可以构建更加精准的生存期预测模型,助力个体化精准医疗。本研究运用多模态影像特征结合机器学习算法构建多模态神经网络乳腺生存预测模型,并将其与传统模型进行比较,旨在为临床诊疗提供参考价值。
2.材料与方法
2.1一般资料
回顾性分析术后病理证实为乳腺患者1096例。纳入标准:①超声及临床资料完整;②术后有明确分型。排除标准:①临床资料缺失;②术前行放化疗。依据患者生存结局分为存活组和死亡组。
2.2影像学检查
所有MG图像均采用德国Siemens Mammomat Inspiration乳腺 X线摄影机检查获得,行头尾位和内外斜位标准双体位投照。
2.3多模态数据融合
多模态数据融合(Multimodal Data Fusion)是指将源自不同信息源或采用不同采集手段所获取的数据进行汇聚、剖析、综合及萃取的过程。在此过程中,各类信息源的数据会经历预处理、特征提炼、对齐与整合等关键步骤。①各模态数据预处理,涵盖数据清洗与格式转换等;②通过特征提取和匹配,找出不同模态数据之间的关联性;③运用特定的算法与模型,将这些数据融合为一体,创造出更为全面、详尽且精确的综合信息,从而提升数据的价值与应用潜力。
2.3.1模型构建的基本框架
本研究通过神经网络生存分析模型创建的多模态自适应加权融合机制,将CT影像、临床数据和病理数据进行联合处理,旨在提高生存预测的准确性和鲁棒性。模型的整体架构包括三个主要部分:特征提取模块、加权融合模块和生存预测模块。
2.3.2数据预处理与特征提取
针对不同类型的数据采取不同的处理方式。CT影像数据,采用了一个3D卷积神经网络(CT_CNN)进行特征提取。3D卷积层能够有效捕捉影像中的空间结构信息,并提取深层特征,特别适合处理医学影像中复杂的三维结构。在这一模块中,CT_CNN包含了两个3D卷积层,每个卷积层后面都接有一个ReLU激活函数和一个池化层,帮助提取出局部的空间特征。最后,通过一个全连接层将提取的特征映射到一个128维的向量,作为影像特征的表示。对于临床数据和病理数据,则使用了全连接网络(Clinical_Network和Pathology_Network)来提取特征。临床数据包括患者的基本信息、病史、实验室测试结果等,病理数据则包括组织切片的形态学特征、基因表达等信息。通过分别设计的全连接层(具有若干隐藏层)对临床数据进行处理,并且每一层使用ReLU激活函数。经过处理后,临床数据和病理数据都被映射为64维的向量。这些特征表示能够有效反映各自模态的数据特性,作为后续融合过程的输入。
2.3.3多模态数据融合策略
多模态自适应加权融合模块是模型的创新点之一。在传统的多模态学习中,通常采用简单的拼接或平均加权等方式进行模态信息融合。然而,这种方法无法有效地考虑到每个模态在不同任务或不同数据条件下的贡献差异。为了解决这一问题,模型引入了自适应加权机制,允许模型在训练过程中自动调整每个模态的权重。具体而言,模型为CT影像、临床数据和病理数据分别分配一个权重系数,这些权重通过一个学习过程动态更新。权重的学习方式基于softmax函数,这样可以确保所有权重的总和为1,且每个模态的权重值都在合理范围内。每个模态的特征乘以相应的权重后,会得到加权后的特征表示。通过这种方式,模型能够根据不同模态在生存分析中的重要性动态调整它们的贡献,从而更好地整合多模态信息。
在加权融合后,模型会将加权后的特征向量进行合并,通常是通过向量拼接的方式,形成一个统一的特征表示。这个融合后的特征向量包含了来自不同模态的有价值信息,具有较强的表征能力。融合过程中的加权系数是通过反向传播算法在训练过程中自动学习和优化的,因此,模型可以根据数据的特征自适应地调整模态之间的关系和重要性。
2.3.4生存模型构建
生存预测模型通过一个全连接层来预测患者的生存时间,这一过程是通过对融合后的特征进行逐层加权求和,并输出一个连续的预测值。若为分类任务,则输出为生存状态的分类标签,通常采用二分类(生存/死亡)或多分类(不同的生存风险组)。该模块的核心是全连接层,输出维度为任务要求的类别数或连续值。此外,模型在加权融合过程中采用了softmax规范化方法,确保了各模态权重的合理分配和稳定性。这一设计避免了不合理的权重分配(如某个模态权重过大或过小),并通过全局优化提高了融合特征的表达能力。由于CT影像、临床数据和病理数据在任务中可能存在不同的噪声和信息冗余,因此这种动态加权机制能够帮助模型在训练过程中自动识别和调整每个模态的重要性,减少噪声干扰,强化重要特征的学习。
2.4统计学分析
定量资料数据若服从正态分布,采用描述,组间差异采用独立样本t检验进行比较;若不服从正态分布,采用P50(P25,P75)描述,组间差异表采用Mann-Whitney U检验。定性资料采用构成比N(%)进行描述,组间差异采用卡方检验或Fisher确切概率法进行比较。运用最小绝对收缩和选择算子(Least absolute shrinkage and selection operator)进行特征降维筛选,运用机器学习分类器构建多模态神经网络影像组学生存预测模型。单因素分析有意义的变量纳入多因素Cox回归模型。绘制ROC曲线分析多模态超声检查对乳腺病变良恶性的诊断价值,AUC<0.5表示无价值,0.5≤AUC<0.7诊断价值较低,0.7≤AUC<0.9诊断价值中等,AUC≥0.9诊断价值高。应用SPSS(IBM SPSS Statistics 26.0)和R-studio(4.3.4)进行统计分析,检验水准α=0.05。
3结果
3.1研究对象一般资料
根据生存结局将患分为两组,存活组(n=947)和死亡组(n=149)。1096例乳腺癌患者平均年龄(55.15±9.92)岁,HER2阴性患者 115 例,平均年龄(58.47±13.22)岁,男性12例,女性1084例。组织学类型中浸润型占多数,987例占比90.1%。22例发生远处转移。两组年龄、T、N、M分期以及Stage分期差异有统计学意义(P<0.01);两组性别、组织学类型比较,差异无统计学意义(P>0.05)。见表1。
表1 两组一般资料及临床资料比较
变量 |