原发部位不明的癌症 (CUP,Cancer of unknown primary) 因其难以捉摸的性质而给诊断带来了挑战。许多 CUP 病例表现为胸膜和腹膜浆液性积液。利用来自四家三级医院的 57,220 例病例的细胞学图像-cytological images,作者开发了一种使用细胞学 (TORCH,tumor origin differentiation using cytological histology) 进行肿瘤起源区分的深度学习方法,该方法可以识别恶性肿瘤并预测胸水和腹水中的肿瘤起源。作者在三个内部 (n = 12,799) 和两个外部 (n = 14,538) 测试集上检查了性能。在内部和外部测试集中,TORCH 的癌症诊断AUC在 0.953 到 0.991 之间,肿瘤起源定位的AUC在 0.953 到 0.979 之间。TORCH 准确预测了原发性肿瘤起源,top-1 准确率为 82.6%,top-3 准确率为 98.9%。与病理学家的结果相比,TORCH 的预测效能更高。该研究强调了 TORCH 作为临床实践中有价值的辅助工具的潜力。
来自:Prediction of tumor origin in cancers of unknown primary origin with cytology-based deep learning, Nature Medicine, 2024
目录
背景概述
原发部位不明的癌症 (CUP) 是一组经组织病理学确诊为恶性转移但无法通过标准诊断方法确定其来源的恶性疾病(不能判断肿瘤细胞起源于什么组织中的某种细胞类型恶化)。据估计,CUP 占人类诊断出的所有癌症的 3-5%。腺癌是最常见的病理类型,其次是鳞状癌和未分化癌。尽管采用了联合化疗,但大多数患者的预后非常差,只有 20% 的患者能达到 10 个月的中位生存期。CUP 通常以早期播散、多器官受累为特征。然而,只有不到 30% 的 CUP 病例可以通过大约 20 种不同的免疫染色亚基的鸡尾酒疗法(药物联用)来精确定位,因此 CUP 仍然是临床医生面临的一个棘手问题。
在新诊断的 CUP 患者中,相当一部分存在胸膜或腹膜转移。胸腔和腹部浆膜腔是孤立肿瘤细胞转移的高倾向性部位。胸腔积液或腹水中发现的游离肿瘤细胞是某些实体肿瘤 IV 期的有力证据。据报道,7-20% 的呼吸道或胃肠道肿瘤患者被诊断出患有胸腔和腹腔积液,其中许多人同时患有腹膜或胸膜癌。先前的研究表明,浆液性积液可能在没有任何癌症病史的情况下发展,并且在 10% 的恶性积液患者中作为癌症的初始表现出现。腹膜或胸膜细针穿刺细胞学检查通常是诊断胸腹转移的关键方法。然而,病理学家通常可以通过细胞学涂片直观区分腺癌和鳞状癌,但无法区分肿瘤细胞的来源。因此,精确的细胞学评估可能有助于对 CUP 和胸膜或腹膜转移患者进行适当的管理,指导最佳治疗策略,避免不必要的手术并进一步延长总体生存期。
基于CNN的计算机分析最近越来越多地被用作病理诊断领域的辅助技术。数字病理学已应用于各种图像处理和图像分类任务。然而,目前的AI算法主要关注组织病理图像的疾病分类,很少有能够解释细胞病理学成像数据以预测肿瘤起源的深度学习模型。在常规临床实践中,组织病理学和细胞病理学在追踪肿瘤起源方面有不同的应用场景。当可以通过手术或针吸活检(细针穿刺病变组织吸取组织样本)获取标本时,会使用组织学检查,这些类型的标本可以提供更丰富的诊断信息。细胞学检查主要适用于不能接受手术或不能耐受针吸活检的晚期癌症患者。在这种情况下,胸腔和腹腔浆液性积液标本因其极佳的可及性(微创穿刺)而有助于定位癌症起源。然而,取样不足(细胞收获量低)、细胞变性或异形性以及检查者之间的解释差异是诊断准确率不高的主要原因。需要应用新技术,例如人工智能辅助图像分析,以提高肿瘤检测能力。目前,尚未有研究使用 AI 通过胸水和腹水的细胞学图像预测癌症起源。
该研究旨在通过细胞学图像建立诊断模型,预测癌症和胸水或腹水转移患者的广泛癌症起源。该 AI 系统的性能通过来自多个独立测试集的大规模细胞学涂片病例进行验证。
基线描述
2010 年 6 月至 2023 年 10 月期间,作者获得了来自四家大型机构(天津医科大学肿瘤医院、郑州大学第一医院、苏州大学第一医院和烟台毓璜顶医院)的 76,183 名患者的 90,572 张细胞学图像的大型数据集作为训练和测试集(有原发部位-Primary tumor site的标注)。此外,作者排除了 24,808 张缺乏任何临床或病理支持证据证明原发来源的恶性肿瘤图像。另外还排除了 8,544 张空白或对焦不准的图像。最终数据集包含来自 43,688 名患者的 57,220 张图像。
训练集包括来自 20,638 名个体的 29,883 张图像,涵盖 12 种肿瘤亚型或来源:138 个,食道;1,773 个,胃; 20个,肠道;720个,结肠和直肠;151个,肝脏;144个,胆囊;357个,胰腺;321个,子宫和阴道;4,217个,卵巢和输卵管;1,874个,乳腺;9,121个,肺和上呼吸道;570个,血液和淋巴系统。除了上面描述的19,406张肿瘤图像外,最终训练集中还包括10,477张良性疾病图像。
- 图1:a.共计 42,682 例病例来自三家大型医院,其中 70%(n = 29,883)用作训练集。临床病理数据来自放射影像科、医疗记录系统和病理数字数据库。b.在诊断过程中,大多数图像被放大 200 倍或 400 倍。c.使用细胞学图像训练的深度学习网络旨在根据最高预测概率得分将目标图像分为五类。分类结果在四个机构得到进一步验证,包括三个内部测试集(n = 12,799)和两个外部测试集(n = 14,538)。N 表示第 N 个图像块。
同样,从同样的四家医院获得了三个内部测试集,包含10,974个受试者(12,799张图像)。另外两个外部测试集包括来自天津和烟台医院的12,076个受试者(14,538张图像)(图1)。测试集的肿瘤分类与训练集大致一致。由于同一患者在疾病发展的不同阶段可能接受过一次以上的胸腹水芯针穿刺活检以进行细胞学分析,因此可能记录了多张图像。在该研究中,每张图像结合其临床病理资料作为一个病例。
TORCH预测肿瘤起源的表现
通过对三种不同类型的输入训练四种不同的深度神经网络从而开发了 TORCH,一共产生了 12 种不同的模型。随后执行模型集成以整合这些模型。结果表明,TORCH 提供了相对可靠的泛化性。在五个测试集(n = 27,337)上,TORCH 实现了AUROC值 0.969的平均。在三个内部测试集上,天津数据集的AUROC值为0.953、郑州数据集的AUROC值为0.962,苏州数据集的AUROC值为0.979(图2);在两个外部测试集上,天津-P和烟台数据集的AUROC值为0.958和0.978。
在癌症阳性病例的识别方面,TORCH的AUROC值为0.974,准确率为92.6。在女性生殖系统组肿瘤来源定位方面,TORCH的AUROC值为0.960,准确率为88.1,与其他系统相比性能有所提高。
方法细节
数据临床分类
为保证每张图像的质量,作者委托5位资深病理学家(均具有15年以上的临床实践经验)收集相应的H&E图像或手术切除或针吸活检标本的病理检查结果,以验证其准确性和真实性。临床诊断不明确或原发肿瘤来源不明的病例被排除在外。5位病理学家协商一致,手动为每个病例分配最终的分类标签。既往接受过放疗的患者均被排除在训练集和测试集之外。
这些患者的各种癌症类型首先根据器官功能和来源分为12个亚组。然后:
- 食管、胃、十二指肠、肠、阑尾、结肠和直肠等肿瘤归入腔道消化系统;
- 肝脏、胆囊、胰腺肿瘤归入分泌性消化系统,
- 卵巢、输卵管、子宫体、宫颈、阴道肿瘤归入女性生殖系统。
- 由于乳腺的特殊性和功能,乳腺癌也归入女性生殖系统。
- 将肾脏、输尿管、膀胱、尿道肿瘤归入泌尿系统;为符合临床惯例,将前列腺、睾丸、精囊肿瘤也归入泌尿系统。
- 将肺、气管肿瘤归入呼吸系统。
- 头颈部肿瘤归为一组。
- 中枢神经系统与周围神经系统肿瘤归为一组。
- 骨与软组织肿瘤也归为一组。
- 对于黑色素瘤、间皮瘤和胸腺瘤,由于其独特的生长特性,分别分组。
- 此外,急慢性白血病和淋巴瘤被归入血液和淋巴系统。
由于某些肿瘤(例如泌尿系统、头颈部、神经系统、骨和软组织、黑色素瘤和胸腺瘤)很少转移到胸部或腹部浆膜腔,因此可用于模型训练的细胞学图像数量有限。在该研究中,来自这四家机构的间皮瘤标本也相对稀少。从上述癌症中排除了这些罕见的细胞学图像,并进一步将剩余的57,220例病例整合为五大类:良性肿瘤、消化系统(包括腔内消化系统和分泌性消化系统)、女性生殖系统(包括乳腺癌)、呼吸系统和血液和淋巴系统(图1)。
数据管理
从现实世界的临床场景中检索细胞学图像而不是全切片图像(WSI)。首先通过细针抽吸提取胸腔和腹腔积液,并直接制备成涂片进行显微镜观察(JVC TK-C9501EC,Olympus BX51,放大倍数为 ×400 或 ×200)。
病理学家选择了五到十个最能代表病理特征的肿瘤细胞浓缩区域进行半定性分析。数据库中存储的原始图像格式为 2,797 × 1,757 像素。由于不同肿瘤来源导致细胞形状各异,以及细胞学图像中背景比例相对较高,通常不可能直接从这些大图像中开发深度学习模型,因此作者将每张图像分成 224 × 224 像素的patches列表。排除了包含严重伪影的空白、聚焦不佳和低质量图像。从同一幅图像中提取的patches位于单个包中。对于癌症阳性bag,必须至少有一个patch包含肿瘤细胞;对于阴性包,任何patch都不得包含肿瘤细胞。
对于具有 n n n 个patches的给定细胞学图像,作者将每个patches转换为 1,024 维的特征向量(特征提取器来自MoCo预训练)。然后,将这些特征向量组合为 n n n 行 1,024 列的特征矩阵 X i m a g e X_{image} Ximage