基于临床数据与病理切片构建多模态医学AI模型，实现腋窝淋巴结转移的术前精准预测_preoperative prediction of mediastinal lymph node -CSDN博客

本文链接：https://blog.csdn.net/qq_45404805/article/details/147943053

小罗碎碎念

在乳腺癌诊疗领域，腋窝淋巴结（ALN）转移的术前精准预测至关重要，它直接影响患者的治疗方案选择和预后。

传统预测方法存在诸多弊端，如腋窝淋巴结清扫术（ALND）创伤大，前哨淋巴结活检（SLNB）存在操作风险且无法利用原发肿瘤病理特征。

在此背景下，本文聚焦于利用全切片图像（WSIs）和临床病理特征开发预测模型，以填补这一临床需求空白。

本文作者提出了多模态人工智能模型METACANS，它整合了基于WSIs的深度学习模型PathDL和基于临床病理特征的机器学习模型ClinicML。

PathDL+ClinicML

研究人员收集多中心数据进行训练和验证，结果显示METACANS在多个队列中表现出色，其在外部验证队列中的AUC达到0.733，阴性预测值为0.846。同时，研究还通过可解释性分析揭示了模型决策依据，并探讨了各临床病理特征对预测的影响。

多中心验证与可解释性分析

对于从事医学AI研究的人员而言，该研究具有重要参考价值。一方面，METACANS的成功构建，为其他疾病的多模态预测模型开发提供了思路，包括如何有效整合不同数据模态、优化模型结构等。

另一方面，研究中遇到的模型特异性低、不同机构数据存在差异等问题，也为后续研究指明了方向，比如可通过数据增强、特征选择等方法提升模型性能，增强模型的泛化能力，以更好地推动医学AI技术在临床实践中的应用。

交流群

欢迎大家加入【医学AI】交流群，本群设立的初衷是提供交流平台，方便大家后续课题合作。

目前小罗全平台关注量67,000+，交流群总成员1500+，大部分来自国内外顶尖院校/医院，期待您的加入！！

由于近期入群推销人员较多，已开启入群验证，扫码添加我的联系方式，备注姓名-单位-科室/专业，即可邀您入群。

知识星球

对推文中的内容感兴趣，想深入探讨？在处理项目时遇到了问题，无人商量？加入小罗的知识星球，寻找科研道路上的伙伴吧！

一、文献概述

“Multimodal AI model for preoperative prediction of axillary lymph node metastasis in breast cancer using whole slide images”这篇论文开发了一种多模态人工智能模型METACANS，结合原发性肿瘤活检全切片图像（WSIs）和临床病理特征预测乳腺癌腋窝淋巴结（ALN）转移，在多队列中进行验证，分析了模型性能、关键信息及临床病理特征的影响，讨论了模型的优势、局限性及未来研究方向。

作者信息

1-1：研究背景

乳腺癌发病率和死亡率高，ALN转移影响预后。

传统ALN转移诊断方式如术后ALND创伤大，SLNB有局限性，超声和MRI无法提供细胞层面信息。

WSIs能详细观察组织病理特征，基于此预测ALN转移有重要临床价值。

1-2：研究方法

数据收集：回顾性多中心研究，韩国6个独立乳腺癌队列，共4657例患者。训练和内部验证组2491例，外部验证5个队列共2166例。
图像预处理：从WSIs提取224×224×3分辨率为10×的RGB图像块，筛选有信息的图像块；用Macenko方法进行染色归一化。
模型构建：采用CTransPath模型结合卷积神经网络和多尺度Swin Transformer提取图像特征；ABMIL模型聚合特征预测ALN转移（PathDL）；基于随机森林（RF）开发临床病理特征预测模型（ClinicML）；根据模型预测能力加权整合二者概率得到METACANS。

1-3：研究结果

模型性能：内部验证队列中，METACANS的AUC为0.743；5个外部验证队列中，AUC在0.681 - 0.801之间。综合外部验证数据集，AUC为0.733，显著优于PathDL和ClinicML。METACANS整体NPV为0.846，灵敏度0.820，特异性0.504。
关键信息识别：PathDL通过注意力机制识别出微乳头生长、浸润和坏死区域与ALN转移相关。
临床病理特征影响：ClinicML特征重要性分析显示肿瘤大小影响最大，纳入其他特征未提升模型性能。核分级、组织学分级等多种临床病理特征与ALN转移显著相关，但部分特征对预测模型性能提升不明显。

1-4：研究结论

METACANS可术前预测乳腺癌ALN转移，有潜力减少不必要的ALND，但特异性低，需谨慎解释结果。

未来应改进模型特异性，与现有方法结合提高准确性，为乳腺癌管理提供更有效的工具。

二、多模态模型的研究整体流程

PathDL部分

数据采集（Data Acquisition）：获取原发性肿瘤活检样本。
图像块生成（Patch Generation）：从全切片图像生成图像块。
染色归一化（Stain Normalization）：对图像块进行染色归一化处理，使不同样本图像的染色特征一致。
深度学习用于ALN转移分类：通过特征提取网络提取图像特征，再经ALN转移分类网络判断是否发生ALN转移。

ClinicML部分

初始诊断（Initial Diagnosis ）：基于放射影像获取临床病理数据，如年龄、肿瘤大小、癌灶数量等。
机器学习用于ALN转移分类：利用这些临床病理数据，通过机器学习算法（如随机森林等）构建模型，预测ALN转移概率。

整体流程

模型集成（Model Ensemble）

将PathDL和ClinicML两个模型预测的ALN转移概率，通过加权集成得到METACANS模型的最终预测结果。

多中心验证与分析（Multicentre Validation & Analysis）

用多个外部验证队列的数据评估模型性能，如绘制受试者工作特征曲线（ROC curve）计算AUC，展示特征重要性等。

还通过病理分析，可视化模型关注的病理区域，判断模型决策依据。

减少侵入性操作（Reducing Invasive Procedure）

若METACANS模型预测为腋窝淋巴结转移阴性，建议不进行腋窝淋巴结清扫术，以此减少不必要的侵入性手术操作。

三、方法

3-1：研究设计与参与者

本项回顾性、多中心诊断研究在韩国开展，使用来自六个独立乳腺癌队列的数据。

在模型训练和内部验证方面，最初纳入2005年7月至2020年6月期间在新村 severance 医院接受治疗的5921名患者。

排除标准如下：

（1）无活检标本（n = 2621）；
（2）非浸润区域（n = 664）；
（3）组织不足（n = 145）。

应用这些标准后，剩余2491名患者。将其随机分为两组：80%用于训练（n = 1991），20%用于内部验证（n = 500）。

训练集包括1457名（73%，腋窝淋巴结（ALN）转移阴性）和534名（27%，转移阳性）患者。内部验证集包括368名（74%，阴性）和132名（26%，阳性）患者。

在训练集（n = 1991）内，采用八折交叉验证策略在训练期间优化模型。其中七折（n = 1743）用作训练折，一折（n = 248）用作交叉验证折。

交叉验证折用于监测模型训练、优化超参数以及确定临界阈值。

使用相同的排除标准，从另外五个独立队列收集数据用于外部验证。

队列A包括2001年11月至2020年12月期间在KUDMC接受治疗的1090名患者。

队列B包括2007年1月至2021年1月期间在GS接受治疗的486名患者。

队列C包括2005年1月至2010年6月期间在EWUMH接受治疗的246名患者。

队列D包括2011年6月至2017年9月期间在CBMC接受治疗的197名患者。

队列E包括2004年1月至2016年9月期间在DKUH接受治疗的147名患者。

3-2：图像块生成

鉴于全切片图像（WSIs）尺寸较大，为减轻计算负担，常采用图像块层面的分析。

此外，由于WSIs中存在大量无信息区域，为提高计算效率，选取相关组织区域十分必要。

在本研究中，从WSIs提取分辨率为10× 、大小为224×224×3的红绿蓝（RGB）图像块（每个像素约代表1.0×1.0μm² ）。

对于每个图像块，仅选择T值大于50的图像块，这些被视为有信息的图像块，如公式(1)和(2)所示。

常数C根据经验设为8 。符号R、G和B分别代表RGB通道。
$\frac{\sum_{i \in W \times H} \Omega_{i}}{W \times H} \times 100(\%)$

$\Omega_{i} = \begin{cases} 1, & \text{if } |I_{i,R} - I_{i,G}| \geq C \text{ or } |I_{i,R} - I_{i,B}| \geq C \text{ or } |I_{i,G} - I_{i,B}| \geq C \\ 0, & \text{otherwise} \end{cases}$

此外，为确保更准确地选择图像块，作者利用色调 - 饱和度 - 明度（HSV）色域。将RGB色域图像转换为HSV色域，并根据经验选择平均色调（H）值大于70的图像块。

此过程从训练和内部验证队列中得到2,330,202个图像块。对于外部验证队列A - E，分别提取出888,294、392,356、213,301、157,845和142,287个图像块。

3-3：染色归一化

组织病理切片制备涉及染色过程，以增强对比度和细节。然而，该过程可能会在染色的颜色和强度上引入变异性，这可能会影响计算机辅助诊断系统的性能。

因此，染色归一化是一个关键的预处理步骤，用于减轻这些不一致性并确保可靠的图像分析。

为解决不同机构间WSI扫描仪、染色方法和组织处理的差异，作者采用Macenko方法进行染色归一化。

该方法是数字病理学中广泛采用的技术，可减少因染色程序差异导致的颜色表示方差。此方法从参考图像中提取颜色反卷积矩阵，然后将该矩阵应用于目标图像。

这一过程有效地对所有图像的颜色分布进行标准化，从而减轻染色变异性的影响，并有助于更准确和一致的下游图像分析。

本研究中染色归一化的结果见补充图8。

补充图8

3-4：用于特征提取的深度学习模型

在本研究中，作者采用在PyTorch框架中实现的CTransPath模型，使用NVIDIA RTX A6000图形处理单元（GPU），批量大小设为1000，从每个图像块中提取图像特征。

CTransPath模型将卷积神经网络（CNNs）与多尺度Swin Transformer相结合，能有效捕获局部和全局信息。

底层的CNN层专注于提取详细的空间特征，而Swin Transformer处理长程依赖关系，这使其在组织病理图像分析中特别强大，因为在组织病理图像分析中，精细粒度和全局上下文理解都至关重要。

该模型在来自癌症基因组图谱（TCGA）和病理人工智能平台（PAIP）的数据集上进行预训练，这些数据集包括从超过30,000张WSIs中获取的约1500万个图像块。

TCGA和PAIP共同涵盖多个器官和多种癌症，涉及超过25个解剖位置和32种不同的癌症亚型，确保了多样化的样本范围，有助于训练适用于各种组织病理图像的通用特征表示。这种集成设计使CTransPath能够作为有效的局部 - 全局特征提取器，生成非常适合组织病理图像分析任务的通用特征表示。

作者选择CTransPath是因为其混合架构已证明在有效捕获局部和上下文特征方面具有显著能力，使其成为复杂医学图像分析任务的理想选择。使用CTransPath，每个图像块被转换为768维向量，这被称为图像块级表示。

因此，具有N个图像块的WSI被表示为N×768的特征矩阵。

3-5：用于腋窝淋巴结（ALN）转移分类的深度学习模型

为将图像块级表示（N×768特征矩阵）聚合为切片级表示（1×768特征向量），作者采用了ABMIL模型，该模型已应用于多种数字病理图像分析，包括乳腺癌检测、癌症亚型分类和生存预测。

ABMIL使用图像块表示的加权平均值，权重由使用神经网络的注意力机制确定。

设 $\{h_1, \ldots, h_N\}$ 为包含N个实例的包；ABMIL通过对每个表示进行加权平均，以获得包级（全切片图像WSI级）表示 $z$ ：
$\sum_{n=1}^{N} a_n h_n \$
其中：
$a_n = \frac{\exp\{w^{\top}(\tanh(Vh_n^{\top})) \odot \text{sigmoid}(Uh_n^{\top}))\}}{\sum_{j=1}^{N} \exp\{w^{\top}(\tanh(Vh_j^{\top})) \odot \text{sigmoid}(Uh_j^{\top}))\}}$
其中 $\in \mathbb{R}^{L \times 1}$ ， $\in \mathbb{R}^{L \times M}$ 和 $\in \mathbb{R}^{L \times M}$ 是参数， $\odot$ 是逐元素乘法。

ABMIL方法利用具有sigmoid激活函数的非线性。在本研究中， $L$ 和 $M$ 分别设为768和192 。包级表示随后被传递到全连接层，以获得最终预测概率。作者将此过程称为DL模型，它使用病理图像，被称为PathDL。

该模型使用以下关键参数进行训练

二元交叉熵损失函数、Adam优化器（ $\beta_1 = 0.9$ ， $\beta_2 = 0.999$ ）、权重衰减为0.0005、学习率为0.001并采用余弦退火学习率调度器，批量大小为1 。

在注意力门控层和最后一个全连接层之前添加丢弃率为0.10的Dropout层，以提高模型的稳健性。

3-6：用于腋窝淋巴结（ALN）转移分类的机器学习模型

作者开发了一个基于随机森林（RF）的机器学习模型，利用临床病理特征来预测ALN转移。

RF模型集成多个决策树，以提高预测的精度和稳定性，这种方法可减少过拟合并提升泛化性能。作者选择RF模型，是因其能处理特征间的复杂交互，鉴于临床病理数据的异质性，这一点至关重要。

在本研究中，作者使用肿瘤大小、癌灶数量和年龄来训练RF模型。肿瘤大小和癌灶数量通过超声图像或磁共振成像确定，年龄则取自临床报告。

为突出对临床医生的实际应用价值，作者的模型仅使用在全切片图像（WSI）分析前获得的临床病理特征进行训练，这个基于机器学习的模型被称为ClinicML。

作者使用Python的scikit - learn.ensemble包中的RandomForestClassifier模块来训练RF模型。

采用的参数为：

n_estimators = 2000
max_depth = 3
min_samples_split = 50
class_weight = “balanced”
random_state = 42

为防止模型过拟合并简化模型，将年龄分为两类：55岁及以上患者和55岁以下患者，55岁的分界点是根据训练集中53.7岁的平均年龄选定的。

在存在多个癌灶的情况下，以最大肿瘤的最长直径作为肿瘤大小，癌灶数量分为单个或多个。

为使模型对临床医生更便捷易用，作者选择不使用从WSI进一步分析中可获取的任何额外信息。

3-7：两种腋窝淋巴结（ALN）转移分类模型的集成

由于每个预测模型的预测能力不同，简单地对两个模型的预测结果赋予相等权重相加，可能会降低性能。

为有效整合从两个模型获得的连续概率以用于最终预测，作者根据每个单独模型的预测能力来计算权重。

这通过应用概率的加权集成来实现，如公式(5)所示。

这里， $w_{PathDL}$ 和 $w_{ClinicML}$ 基于性能增益进行计算，性能增益代表模型的实际预测能力，如公式(7)所示。

因为随机猜测时理论上的曲线下面积（AUC）为0.500，在本研究中作者将实际预测能力即性能增益 $G$ 定义为AUC与0.500的差值。

用于计算性能增益和权重的AUC值，基于训练集八折交叉验证中单个验证折的AUC值。
$\text{Probability}_{METACANS} = w_{PathDL} \times \text{Probability}_{PathDL} + w_{ClinicML} \times \text{Probability}_{ClinicML}$
其中：
$w_{PathDL} = \frac{G_{PathDL}}{G_{PathDL} + G_{ClinicML}}, \quad w_{ClinicML} = \frac{G_{ClinicML}}{G_{PathDL} + G_{ClinicML}}, \quad w_{PathDL} + w_{ClinicML} = 1$
其中：
$G_{i} = \text{Area Under the Curve}_{i} - 0.500 \$
在本研究中， $AUC_{PathDL}$ 和 $G_{PathDL}$ 分别为0.639和0.139 。同样， $AUC_{ClinicML}$ 和 $G_{ClinicML}$ 分别为0.729和0.229 。

根据公式(6)，此时得到 $w_{PathDL}$ 和 $w_{ClinicML}$ 分别为0.378和0.622 。

随后，作者使用验证折中最小概率0.235和最大概率0.771进行最小 - 最大归一化，将整体概率调整到0和1之间。这种直观调整数值范围的操作不会影响模型性能。

然后作者将所有队列最终计算出的概率裁剪到[0, 1]范围。这些权重和过程用于计算内部和外部验证队列的最终ALN转移预测概率。

3-8：METACANS

在本研究中，作者通过加权求和的方式集成基于深度学习的模型（PathDL）和基于机器学习的模型（ClinicML）的预测概率，其中权重依据每个模型的性能来确定，以便通过对性能更高的模型赋予更大权重，优化最终预测结果，最终得到预测腋窝淋巴结（ALN）转移的概率。

在本文中，这个集成模型被称为METACANS，其蕴含着“转移癌症范围（METAstasis CANcer Scope）”的概念。

3-9：统计分析

使用R软件进行统计分析。

采用DeLong方法比较两个曲线下面积（AUC）值。

将统计学显著性设定为P < 0.05 。

作者利用训练集八折交叉验证中单个验证折的最大约登指数，来设定模型决策的临界阈值。

四、项目分析

METACANS是一个用于医学影像和临床数据分析的综合框架，专门为癌症检测和腋窝淋巴结转移（ALNM）预测而设计。

该代码库由两个互补的系统组成，它们通过不同的数据模态来进行癌症检测：

ClinicML——一个临床数据机器学习系统，使用随机森林进行分类。
PathDL——一个数字病理学深度学习系统，使用基于注意力机制的模型分析全切片图像（WSIs）。

4-1：系统架构

以下图表展示了METACANS代码库的高层次架构。

METACANS代码库的系统架构，呈现了PathDL和ClinicML两个子系统的组件及其数据流向

PathDL系统

图像块处理流程：首先由patch_generation.py从全切片图像中提取图像块，然后patch_delete_hue.py根据色调值过滤图像块，去除无关区域。
模型相关流程：经过处理的图像块数据进入models模块。其中，generator.py负责创建数据加载器，为训练和评估提供数据；model_ALNM.py实现GatedAttention模型，用于处理图像块特征；utils.py提供一些实用功能。generator.py、model_ALNM.py和utils.py的数据输出分别流向train.py和inference.py 。train.py用于管理模型训练过程，inference.py则负责模型推理和可视化。

ClinicML系统

RF_train.py作为核心协调文件，一方面与RandomForestClassifier交互，利用随机森林算法进行癌症分类；另一方面调用utils_RF.py，该文件提供数据处理和模型评估的实用功能。

4-2：核心系统

ClinicML系统

ClinicML系统采用基于随机森林的方法，利用存储在Excel文件中的临床数据进行癌症分类。

关键组件

RF_train.py：协调训练和评估过程。
utils_RF.py：提供数据处理和模型评估的实用函数。
RandomForestClassifier：具有定制超参数的核心机器学习模型。

数据流

ClinicML系统中临床数据的处理流程

数据加载：流程起始于包含临床数据的Excel文件，通过make_df()函数对其进行加载与初步处理，将数据整理成合适的数据框格式，便于后续操作。
特征提取：从处理后的数据中提取关键特征，如AGE（年龄）、NUM CANCER（癌灶数量）、SIZE（肿瘤大小）等，这些特征是进行癌症分类预测的重要依据。
模型训练与预测：将提取的特征输入到RandomForestClassifier（随机森林分类器）中进行训练与预测。随机森林分类器是一种集成学习方法，通过构建多个决策树并综合其结果来提高预测的准确性和稳定性。
结果评估与输出：利用test_and_print()函数对模型的预测结果进行测试，并输出评估指标，包括Accuracy（准确率）、AUC（受试者工作特征曲线下面积）、ROC Curve（受试者工作特征曲线）等，以此来衡量模型的性能表现。

PathDL系统

PathDL系统使用深度学习分析全切片图像（WSIs）进行癌症检测，采用基于注意力机制的模型聚焦于图像内的相关区域。

关键组件

patch_generation.py：从WSIs中提取图像块。
patch_delete_hue.py：根据色调值过滤图像块。
generator.py：创建用于训练和评估的数据加载器。
model_ALNM.py：实现门控注意力（GatedAttention）模型。
train.py：管理训练过程。
inference.py：处理模型推理和可视化。

数据流

4-3：模型架构

随机森林分类器（ClinicML）

随机森林模型配置了特定的超参数，以在临床癌症检测中实现最佳性能：

RandomForestClassifier(
    n_estimators=2000,
    max_depth=3,
    min_samples_split=50,
    class_weight='balanced',
    random_state=42
)

处理的关键特征包括年龄（AGE）、癌灶数量（NUM CANCER）、大小（SIZE）以及Excel数据中的其他临床参数。

门控注意力模型（PathDL）

门控注意力模型旨在处理来自全切片图像块的特征，并关注最相关的区域。

GatedAttention模型的工作流程

输入特征：接收768维的输入特征，作为模型处理的初始数据。
并行注意力路径：特征进入两条并行的注意力路径。
- Attention V路径：先通过一个线性层将维度从768维转换为192维，再经过双曲正切函数（Tanh）进行非线性变换。
- Attention U路径：同样先经线性层将维度从768维转换为192维，然后通过Sigmoid函数进行非线性变换。
逐元素乘法：将两条并行路径输出的结果进行逐元素乘法运算，得到注意力相关的中间结果。
注意力权重计算：将上述结果通过一个线性层（从192维转换为1维），计算出注意力权重。
Softmax归一化：使用Softmax函数对注意力权重进行归一化处理，使权重值在0 - 1之间且总和为1，以确定各特征的相对重要性。
特征加权求和：根据归一化后的注意力权重，对输入特征进行加权求和，突出重要特征的作用。
分类器处理：将加权求和后的结果输入到线性层构成的分类器中，进一步处理特征。
输出概率：最终由分类器输出预测概率，用于判断癌症相关情况（如腋窝淋巴结转移等）。

模型架构

输入维度：768（每个图像块的特征向量）
注意力维度：192（隐藏维度）
tanh和sigmoid路径的逐元素乘法
用于注意力归一化的Softmax函数
最终分类层

4-4：多医院评估框架

两个系统均设计为可处理多家医院的数据，并实施交叉验证策略：

医院数据集结构

医院代码	描述
ss_tr	主要训练数据集（进行k折划分）
ss_val	验证数据集
ss_te	测试数据集
dk	外部验证医院1
ewha	外部验证医院2
gc	外部验证医院3
gs	外部验证医院4
km	外部验证医院5

该系统使用多家医院的数据进行严格验证，以确保模型的稳健性和泛化能力。

多医院数据集在模型评估中的处理流程

4-5：数据处理流程

临床数据处理流程

使用make_df()加载并处理包含临床数据的Excel文件。
清理数据，将分类变量转换为数值。
提取并归一化特征。
使用处理后的特征训练随机森林模型。
在多个医院的数据集上评估模型性能。

病理图像数据处理流程

使用patch_generation.py处理全切片图像以提取图像块。
使用patch_delete_hue.py根据色调值过滤图像块，去除非组织或不相关区域。
从过滤后的图像块中提取特征。
generator.py模块创建用于模型训练的DataLoader对象。
门控注意力模型处理这些特征以生成预测结果和注意力图。
计算评估指标以评估模型性能。

4-6：系统集成

虽然ClinicML和PathDL系统在不同的数据模态上独立运行，但它们共享一个通用的评估框架，并且可以互补使用，以进行全面的癌症分析。

METACANS框架中利用患者数据进行癌症分析的流程

数据来源：患者数据（Patient Data）分为两类。
- 临床数据（Clinical Data）：以Excel文件形式存储，包含患者的年龄、肿瘤大小等信息。
- 病理数据（Pathology Data）：即全切片图像（WSIs），记录了组织的病理特征。
模型处理：
- ClinicML系统：使用随机森林分类器（RandomForestClassifier）对临床数据进行处理，输出临床预测结果（Clinical Predictions）以及特征重要性（Feature Importance），用于分析不同临床特征在癌症预测中的重要程度。
- PathDL系统：采用门控注意力模型（GatedAttention Model）对病理数据（WSIs）进行分析，生成病理预测结果（Pathology Predictions）和注意力图（Attention Maps），注意力图可展示模型关注的图像区域，辅助理解模型决策依据。
综合分析：将ClinicML系统和PathDL系统的输出结果整合，进行综合癌症分析（Integrated Cancer Analysis），结合临床和病理两方面信息，更全面地评估癌症相关情况，如腋窝淋巴结转移等。