小罗碎碎念
本期推文分享的推文是2024年4月10日
发表在Cancer Discov
上的Artificial Intelligence in Oncology: Current Landscape, Challenges, and Future Directions
。
这篇文献回顾了人工智能 (AI) 在肿瘤学领域的现状、挑战和未来方向,特别关注临床整合。该综述重点介绍了人工智能在癌症检测、诊断和治疗中的应用,重点关注四种最常见的癌症类型:
- 乳腺癌
- 前列腺癌
- 肺癌
- 结直肠癌
该文讨论了深度学习模型的进步和肿瘤学数据的日益数字化,从而促进了精准肿瘤学人工智能应用的开发。它还强调了该领域的挑战、解决方案和潜在的未来方向。
要点归纳
- 肿瘤学中的人工智能正在朝着超越算法开发的临床整合方向发展。
- 人工智能在肿瘤学中的应用按癌症类型和临床领域划分,侧重于检测、诊断和治疗。
- 人工智能应用中使用了各种数据模式,包括成像、基因组学和医疗记录。
- 讨论了该领域的挑战、不断发展的解决方案和未来方向。
- 该综述特别关注旨在直接集成到临床实践中的人工智能应用。
- 乳腺癌、前列腺癌、肺癌和结直肠癌因其患病率和数据可用性而成为主要关注点。
- 本文提供了人工智能在
乳腺癌
检测、结直肠癌
筛查和肺癌
检测中的应用示例。 - 提到了评估人工智能应用在临床护理中的有效性的
前瞻性
研究和临床试验
。
一、绪论
人工智能(AI)在肿瘤学各方面的应用日益增多,其发展动力来自两个根本性的转变。
- 首先,新的计算模型和工具的开发,尤其是过去十年深度学习(1)的进步,使得直接从现实世界数据中学习复杂模式成为可能,成为医疗内、外部AI进展的核心驱动(2)。深度学习的这些进步伴随着图形处理单元和云计算的快速发展,使得能够开发越来越大型的模型,并在海量数据集上进行训练。
- 第二个转变是肿瘤学本身的数字化进程。这包括将患者数据存储在
电子病历
(EMR)系统中,放射学
和病理学
成像的数字化(3),以及常规基因组分析
的日益采用(4)。
尽管这种数字化在不同数据模式和临床站点上并不统一,但越来越多的癌症患者详细、纵向信息变得可用。这些数据可用于构建和训练AI模型,并且这些数据的实时可用性可以使得AI预测能够个性化、与临床相关,从而推进精准肿瘤学(5)的目标。
在本综述中,我们旨在总结目前肿瘤学领域AI的现状。尽管该领域可以涵盖众多的应用,包括生物学和药物发现(6),但本综述特别关注直接集成到临床实践中的AI用例。这一关注点是由AI应用从开发到临床使用的加速进展所驱动的。此外,我们专注于基于现代深度学习方法而不是其他机器学习或基于规则的AI方法。
最后,鉴于AI的众多可能应用和广泛工作,本综述专注于四种最常见的癌症类型:乳腺癌
、前列腺癌
、肺癌
和结直肠癌
,这四种癌症在2023年占所有新发癌症病例的50%(7)。这些癌症类型的AI应用可以作为该领域当前状态的很好代表,特别是由于它们的流行促进了大规模数据收集并鼓励了临床应用。
为了首先激励针对临床集成应用的关注,并说明临床部署的路径,我们强调了在乳腺X光摄影
中用于乳腺癌
检测的AI(图1)。为了开发这样的系统,人们通常会收集成千上万的乳腺X光片(乳房的X光图像)以及乳腺癌是否存在的基本真相注释。然后,一个深度人工神经网络根据这些数据进行训练以检测乳腺癌的存在(图1A)。
结果模型的初步测试通常包括试点、回顾性研究。为了临床集成,商业化
可能随之而来,包括产品工程、更严格的测试和监管批准等步骤(图1B)。
在乳腺X光摄影方面,现在有多种由美国食品药品监督管理局(FDA)和/或欧盟(EU)批准的商用AI设备,旨在帮助放射科医生检测乳腺癌。此外,还有多项正在进行的临床试验评估这些系统的实际效果。
尽管存在许多特定于应用方面的考虑,且轨迹并不总是线性的,但乳腺X光摄影中AI的使用说明了开发肿瘤学AI应用的核心步骤和挑战。除了像乳腺X光摄影这样的癌症检测应用,AI正被大量应用于整个癌症护理连续体,使用不同类型的数据(图2)。
Figure 2
将AI的应用分为三个主要类别,这些类别贯穿于患者的护理轨迹
。具体来说,这些类别包括:
-
癌症检测(Cancer Detection):这一类别涉及到使用AI来识别和检测癌症的存在,通常具有最高的临床成熟度。这意味着在这个领域中,有几个应用已经获得了监管机构的批准,并且有发表的临床试验来支持它们。这些检测应用通常基于医学影像,如X射线、CT扫描、MRI等。
-
癌症诊断(Cancer Diagnosis):AI在癌症诊断中的应用目前成熟度较低,但已经存在一些获得监管机构批准的案例,并且有验证研究正在进行中。这些应用可能涉及到对癌症亚型、分级和分期的确定,以及使用AI来辅助病理学家解读医学影像和组织样本。
-
癌症治疗(Cancer Treatment):这是一般成熟度最低的类别,有许多新兴研究正在进行中。AI在癌症治疗中的应用包括帮助选择治疗方案、设计个性化治疗计划以及在治疗过程中提供指导。这可能涉及到对患者预后的预测、治疗生物标志物的识别以及对治疗反应的监测。
图表中还提到了一些特定的AI应用,如:
- Lesion detection(病变检测):使用AI来识别医学影像中的癌症病变。
- Future risk(未来风险):使用AI模型预测个体未来患癌症的风险。
- Benign vs. malignant(良性与恶性):AI辅助区分肿瘤是良性还是恶性。
- Grade(分级):AI在癌症分级中的应用。
- Genomic interpretation(基因组学解释):使用AI来解释基因组数据,以帮助癌症的治疗和预后。
- Clinical trial matching(临床试验匹配):AI系统帮助匹配患者和适合他们的临床试验。
图表通过“Scaling”(扩展)、“Piloting”(试点)和“Developing”(开发)三个词来描述不同应用类别的成熟度和进展状态。这表明癌症检测应用目前最为成熟,而癌症治疗应用则需要更多的研究和发展。
综上所述,小罗接下来将分三个阶段展开讨论:检测
、诊断
和治疗
,并根据癌症类型进行细分
。
二、癌症检测
当前和不断扩大的筛查项目产生的大规模数据为人工智能(AI)应用的研发和部署提供了独特的机会。筛查侧重于早期癌症检测,尤其是在乳腺癌和肺癌的背景下,基于放射学的医学成像技术被广泛应用。
在筛查之外,成像技术仍然通常是初步癌症检测的核心组成部分,无论是在有症状的患者中还是在偶然检测中发现。尽管在成像服务提供者或癌症医院中尚未普遍采用,但在癌症检测领域已有多种获得美国食品药品监督管理局(FDA)批准和/或欧盟认证的商用设备,并且有多个报告的临床试验。
2-1:乳腺癌
如前所述,AI在乳腺癌的X射线乳腺摄影检测应用是研发和临床转化最活跃的领域之一。
在这一领域的早期催化剂是数字乳腺摄影DREAM挑战赛,这是一个开放的AI竞赛,各团队能够对不同的AI方法进行基准测试和比较(8)。后来,Google在2020年领导的一项研究引起了广泛关注,该研究报道了一项AI系统在乳腺癌检测方面达到专家水平的证据(9)。随后的一项研究提出了一种涵盖2D和3D乳腺摄影的AI方法,有证据表明,在某些情况下,这种方法可以比标准的放射学审查提前1到2年检测到乳腺癌(10)。
现在已有几种获得FDA批准的AI产品,其预期用途是帮助放射科医生从乳腺X光片中检测乳腺癌(K220105, K211541, K200905 RRID:SCR_012945)。FDA还批准了用于辅助解释磁共振成像(MRI; DEN1700, RRID:SCR_012945)和乳腺超声检查(K190442, K210670, P150043 RRID:SCR_012945)的AI算法。
前瞻性研究也正在进行中,以评估这些产品在临床护理中的应用。这包括瑞典的乳腺摄影筛查与人工智能(MASAI)临床试验,该试验最近报告称,AI辅助的工作流程使放射科医生的工作量减少了44%,同时保持了相似的临床表现指标(11)。
几项研究还探讨了AI在预测未来乳腺癌风险方面的应用。例如,Yala及其同事开发的Mirai系统
(12)旨在直接从乳腺X光片中预测5年的癌症风险,并已在多家医院进行回顾性评估。这些AI风险预测算法已被证明优于传统的风险模型(13, 14),并可用于识别那些将从补充筛查中受益的女性。例如,ScreenTrustMRI临床试验将使用AI风险预测模型来选择女性进行补充MRI检查,并预计将在2025年报告结果(NCT04832594, RRID:SCR_002309)。
2-2:结直肠癌
在结直肠癌筛查的背景下,深度学习已被广泛用于结肠镜图像和视频的分析。
例如,周及其同事(15)报道了CRCNet,这是一种用于检测内窥镜图像中结直肠癌存在的深度学习模型,该模型在三个独立数据集上表现出了高性能。多家公司已获得FDA批准或欧盟认证,用于识别结肠镜图像中的息肉的计算机辅助检测(CADe)系统(K211951, K223473 RRID:SCR_012945),并且多项随机对照试验也报告了有希望的结果(16-22)。
其中一些临床研究发现,使用AI后,腺瘤检出率提高,这是评估结肠镜检查程序有效性的一个核心标准。然而,这些研究中的大多数也发现,微小腺瘤(定义为直径≤5毫米的息肉)的检出率增加,这些息肉很少是恶性的(23, 24)。因此,未来的研究需要确定这些AI工具是否会导致长期的患者受益,这是AI应用中的一个核心挑战。
为此,一项更长远的、前瞻性的临床试验现在正在寻求评估结肠镜CADe系统与结直肠癌发病率和死亡率之间的关系,随访期为10年(25)。
2-3:肺癌
自2013年以来,美国预防服务工作组(U.S. Preventive Services Task Force)推荐使用低剂量计算机断层扫描(computed tomography,CT)来对高危人群进行肺癌筛查(26)。这一推荐基于包括国家肺癌筛查试验(National Lung Cancer Screening Trial,NLST)在内的多项研究(27, 28),NLST已成为机器学习研究的关键公共数据资源。
多个研究团队已经利用NLST的成像数据来开发肺癌检测模型。例如,Ardila及其同事(29)开发了一种方法来定位肺结节并预测其恶性的可能性,该模型现已被AI公司Aidence(30)获得许可。
除了使用CT检查外,还有利用深度学习在胸部X光片上检测肺结节的努力。例如,Nam及其同事(31)发表了一项单中心、开放标签的随机对照试验的积极结果,该试验使用了Lunit公司基于AI的胸部X光片系统,并报告AI组的可操作结节检出率高于非AI组。
除了检测当前肺癌的存在外,Mikhael及其同事(32)最近报告了一种AI模型,该模型可以预测6年内肺癌风险。该模型被称为Sybil
,它在NLST数据上进行了训练,并随后使用两个独立数据集进行了验证。
2-4:前列腺癌
当前美国和欧洲的指南推荐在活检前通过磁共振成像(MRI)检测前列腺癌(33, 34)。
在这一领域已有多项人工智能(AI)努力,包括直接分类临床有意义的前列腺癌的方法,以及量化临床相关特征的方法,例如分割和测量前列腺腺体的体积(35)。这导致了大量的学术论文和获得监管批准的商用软件设备(36)。例如,西门子的一款商用原型在涉及七位放射科医生的回顾性读者研究中显示,能够提高临床有意义前列腺癌的诊断准确性(37)。
最近,Hamm及其同事(38)提出了一种可解释的AI模型,该模型不仅限于分类,而且能够以PI-RADS标准(39)输出AI预测,这是一套由放射科医生用于评估多参数前列腺MRI的标准准则。
还有多项开放的AI数据挑战正在进行中。例如,前列腺成像-癌症AI(PI-CAI)挑战使参与者能够在一个包含1,500个MRI前列腺检查的多中心、多供应商数据集上训练(36)。这些挑战为评估和基准测试AI模型提供了一种透明的机制,为未来的算法改进铺平了道路。
三、癌症诊断
一旦怀疑癌症,通常需要通过组织病理学
检查来获得确诊。
除了确定恶性程度外,组织病理学技术还用于将疾病分类到标准的临床类别中,如癌症亚型
、分级
和分期
。人工智能(AI)已被应用于这些任务中的每一项,尽管这些应用通常比上述基于成像的检测应用更远离临床采纳,且获得的FDA或欧盟批准较少。
除了增强标准的组织化学诊断工作流程外,有几项研究还展示了使用AI来促进术中诊断
(例如,在手术切除期间)的潜力,使用无标签(40, 41)和冷冻切片(42, 43)组织样本。
3-1:乳腺癌
人工智能(AI)已被广泛用于分析乳腺癌的石蜡包埋组织切片(H&E图像),以辅助诊断。这一领域的一个核心工作重点是检测前哨淋巴结中的转移性病变。乳腺癌的治疗决策经常依赖于这种病变的检测(44),但病理学审查仍然劳动密集且存在显著的观察者间变异性(arXiv:1703.02442)。
除了临床意义之外,这一应用的一个关键驱动力量是2016年(CAMELYON16)和2017年(CAMELYON17;参考文献45)举办的癌症淋巴结转移挑战赛(Cancer Metastases in Lymph Nodes Challenge,CAMELYON)。这个AI挑战赛成为许多癌症AI项目的早期模型,因为它提供了一个公开可用的、经过专家精心挑选的图像集,以及一个透明的评估和比较AI模型的方法。
这种评估包括与同一数据集上的病理学家参考小组进行比较,这些病理学家在预设的时间限制下工作,以模拟常规病理工作流程,其中许多挑战赛中的模型表现优于病理学家小组。CAMELYON16/17数据随后成为病理学深度学习模型的标准基准。
例如,Google开发了LYmph Node Assistant (LYNA;参考文献46)并报告称,使用该系统的病理学家能够以更短的审查时间检测到显著更多的微转移。多个用于乳腺癌淋巴结转移的商业平台也已在临床使用或开发中。例如,Challa及其同事(47)在俄亥俄州立大学进行了一项回顾性研究,评估了Visiopharm Integrator System的转移AI算法在病理工作流程中的应用,结果令人鼓舞。AI公司Paige最近也获得了FDA突破性设备指定状态,用于Paige Lymph Node,为加速FDA批准提供了途径(48)。
除了转移检测之外,还有研究团队报告了利用深度学习从H&E切片中进行乳腺癌诊断和亚型分类(49-51),以及量化其他临床相关特征,如有丝分裂细胞计数(52, 53)。例如,Sandbank及其同事(50)最近提出了一种深度学习模型,用于分类侵袭性和非侵袭性乳腺癌亚型,并生成51个预测的临床和形态学特征。该模型在外部数据集上进行了验证,这些数据来自法国居里研究所,然后作为以色列马卡比医疗保健服务公司的第二读者诊断系统进行了试点。该模型现在由Ibex Medical Analytics进一步开发,并获得了欧洲共同体(CE)标志,命名为Galen Breast(54)。
在乳腺癌手术切除期间进行术中诊断方面,You及其同事(40)提出了一种结合术中显微镜和深度学习模型的方法,用于分类恶性与良性乳腺组织。
除了组织学亚型分类之外,还有CE标志的产品用于从数字病理学图像中量化雌激素受体、孕激素受体、人类表皮生长因子受体2(HER2)和Ki-67状态(55-57)。作为另一个例子,Wang及其同事(58)开发了DeepGrade,这是一种旨在改进诺丁汉分级系统的深度学习模型。这部分工作现在已集成到瑞典AI初创公司Stratipath(59)中。
知识点补充:诺丁汉分级系统
诺丁汉分级系统(Nottingham Histopathological Grade, NHG)是一种用于评估乳腺癌组织学特征的分级系统。它基于三个主要的组织学特征来对肿瘤进行分级:
- 肿瘤的分化程度
- 核多形性(核的大小和形状的变化)
- 核分裂计数(有丝分裂活动的频率)
这些特征的评估有助于预测肿瘤的生物学行为和患者的预后。
诺丁汉分级系统将乳腺癌分为三个等级:
-
I级(低级别或良好分化):肿瘤细胞与正常乳腺组织相似,表现出较高的分化程度,核多形性较低,核分裂活动较少。
-
II级(中等级别或中等分化):肿瘤细胞的分化程度、核多形性和核分裂活动介于I级和III级之间。
-
III级(高级别或未分化):肿瘤细胞与正常乳腺组织相差较大,表现出较低的分化程度,核多形性较高,核分裂活动频繁。
这个分级系统被广泛用于临床决策中,因为它可以帮助医生评估患者的疾病风险,并指导治疗选择。例如,较高分级的肿瘤可能需要更积极的治疗策略,如更强的化疗方案或额外的治疗手段。
3-2:前列腺癌
多个学术团体和公司已开发了用于前列腺癌诊断和分级的人工智能(AI)模型,这些模型基于石蜡包埋组织切片(H&E图像)。例如,Raciti及其同事(60)报道了Paige Prostate Alpha,这是一个商业决策支持系统,用于检测来自核心针穿刺活检的前列腺癌。
在一项回顾性研究中,病理学家在使用AI平台时,诊断前列腺癌的敏感性得到了提高,同时审查时间减少,特异性没有统计学显著变化。该平台随后在外部队列中进行了验证(61),并最终获得了FDA的批准(DEN200080, RRID:SCR_012945)。
除了使用AI帮助诊断来自活检的H&E图像中的前列腺癌外,AI还被用于通过前列腺分割和MRI图像上的定量特征提取来指导活检本身(K193283, RRID:SCR_012945)。
除了诊断,多个研究团队还报告了使用前列腺癌H&E图像进行Gleason评分
预测的研究(62-64)。例如,Nagpal及其同事(62)使用深度学习模型,利用来自癌症基因组图谱(TCGA)的H&E图像预测Gleason评分
,并报告其诊断准确性显著高于29名获得认证的病理学家。现在已有几款获得CE标志的产品用于Gleason分级(55, 65, 66)。
最近,Kartasalo及其同事(67)开发了一个AI模型,利用H&E图像来检测前列腺癌的包膜外侵犯——这是一种与前列腺癌不良预后相关的关键预后标记。
知识点补充:Gleason评分
Gleason评分是一种用于前列腺癌组织学分级的系统,由Donald F. Gleason博士在1960年代开发。这个评分系统基于前列腺癌细胞在显微镜下的形态特征,将肿瘤的组织结构模式分为1到5个等级(也称为Gleason模式或Gleason等级)。每个模式描述了肿瘤的腺体结构的相似度,数字越小表示肿瘤的腺体结构越接近正常前列腺组织,而数字越大则表示肿瘤的腺体结构越不规则。
在Gleason评分系统中,病理学家会识别出两个主要的模式(最常见和第二常见的模式),并将它们的数值相加得到一个总和,称为Gleason总分或Gleason评分。例如,如果一个肿瘤的主要模式是Gleason 3级,次要模式是Gleason 4级,那么Gleason总分将是3+4=7。Gleason评分的范围从最低的2(非常罕见)到最高的10。
Gleason评分对于预测前列腺癌的进展、患者的预后以及决定治疗方案至关重要。较低的Gleason评分通常与较好的预后和较慢的疾病进展相关,而较高的评分则预示着较差的预后和更快的疾病进展。根据Gleason评分,前列腺癌可以被分类为低风险
、中风险
或高风险
,这影响着治疗决策,如主动监测、手术、放疗或荷尔蒙治疗。
3-3:肺癌和结直肠癌
在肺癌和结直肠癌的病理学诊断方面,也进行了大量使用人工智能(AI)的努力,尽管目前尚无FDA批准的设备用于这些任务。然而,对于肺癌和结直肠癌的治疗相关生物标志物定量,存在几款获得CE标志的设备,这些设备将在下面的“治疗”部分中描述。
在病理学诊断方面,Coudray及其同事(68)在2018年进行了一项研究,他们在TCGA H&E图像上训练了一个深度学习模型,用于分类非小细胞肺癌(NSCLC)亚型。这项研究也是首批直接从H&E图像预测关键驱动基因突变状态的研究之一。
最近,Lu及其同事(69)使用了一种弱监督的深度学习方法——名为聚类约束注意多实例学习(CLAM)——来预测肾细胞癌和NSCLC的亚型。
Ozyoruk及其同事(43)的研究也展示了使用AI促进术中NSCLC亚型分类的潜力,通过将冷冻切片组织切片转换为标准固定和石蜡包埋切片的外观。结直肠癌的病理学分类研究也有报道(70, 71)。例如,Korbari及其同事(72)开发了一个深度学习模型,用于根据H&E全切片图像将结直肠息肉分类为五种常见类型之一。
四、癌症治疗
尽管癌症诊断和分类强烈影响患者治疗,但AI算法也被开发出来直接改善治疗本身,这些方法包括:
- 使用AI帮助选择治疗方案
- 设计个性化治疗
- 在治疗过程中提供指导
我们首先描述癌症特定的应用,特别是使用数字病理学图像
通过AI预测患者预后(73-75)和/或现有治疗生物标志物(76-79)来指导治疗选择。尽管有用于这些任务的一些临床可用设备,但它们往往比癌症检测和诊断任务更远离临床成熟度。
然后,我们描述几个更适合在泛癌环境下描述的具体治疗应用:
- 放射治疗
- 分子肿瘤学
- 临床试验匹配
- 治疗决策支持
- 优化行政工作流程
- 患者参与
最后三个部分突出了大语言模型(LLM)在医疗保健领域的快速应用进展。模型如BERT(80)、GPT(81)和ChatGPT(arXiv:2303.08774)正迅速扩散到行业,医疗保健特定模型也在被开发(参考文献82;arXiv:2106.03598, arXiv:1904.05342)。
这些日益增大的模型因其提高的“零次学习”和“上下文学习”能力而受到关注,这使得它们能够执行一系列下游任务,而不必直接在那些任务上进行微调,如以下应用所述。
4-1:乳腺癌
最近,Ogier du Terrail及其同事(83)进行了一项研究,介绍了一种联邦学习方法,用于预测三阴性乳腺癌对新辅助化疗的反应。该方法包括对H&E全切片图像进行弱监督训练,以预测反应,随后应用可解释性方法来识别与较高反应预测相关联的特征,例如肿瘤浸润淋巴细胞(TILs)的存在和坏死。
在另一项最近的研究中,Amgad及其同事(84)通过使用深度学习提取人类可解释的特征,并随后使用这些特征来生成乳腺癌预后的风险评分,从而明确地强制可解释性。
其他研究也利用AI对H&E图像进行直接预测,以预测TIL的存在(85, 86),这是乳腺癌中一个显著的预后和预测生物标志物,以及程序性细胞死亡配体1(PD-L1)表达状态,这是免疫治疗的一个预测生物标志物(87)。
知识点补充:肿瘤浸润淋巴细胞🆚三级淋巴结
肿瘤浸润淋巴细胞(Tumor-Infiltrating Lymphocytes, TILs)和三级淋巴结(Tier 3 Lymph Nodes, TLS)是两个不同的概念,它们在癌症的诊断和治疗中具有不同的意义:
-
肿瘤浸润淋巴细胞(TILs):
- TILs是指那些进入肿瘤组织内部的免疫细胞,主要是淋巴细胞,尤其是T细胞。它们的存在表明免疫系统正在对肿瘤发起攻击。
- TILs的密度和分布可以通过病理切片进行评估,并且在某些类型的癌症中,如黑色素瘤和某些乳腺癌亚型,TILs的存在与更好的预后和对免疫治疗的响应性有关。
- TILs的分析有助于研究者了解肿瘤微环境中的免疫状态,以及可能的免疫治疗策略。
-
三级淋巴结(TLS):
- 淋巴结是淋巴系统的一部分,负责过滤体内的异物和病原体。在癌症的背景下,淋巴结的状态通常用于评估癌症的分期和扩散程度。
- “三级”这个术语不是一个标准的医学术语,在某些情况下,它可能指的是肿瘤引流路径上的淋巴结,按照它们距离原发肿瘤的位置远近来分级。例如,第一级淋巴结是最接近肿瘤的淋巴结,而第三级淋巴结则距离较远。
- 淋巴结转移是指肿瘤细胞通过淋巴系统扩散到淋巴结,这通常意味着癌症已经进入进展期,可能需要更积极的治疗策略。
在临床实践中,TILs的评估有助于了解肿瘤的免疫微环境,而淋巴结的评估则有助于确定癌症的分期和扩散范围。两者都是癌症管理中重要的考量因素,但它们代表了不同的生物学现象和临床参数。
4-2:结直肠癌
对于结直肠癌,已经开发了各种数据模式下的预后AI模型,包括MRI(88)、组织病理学(89-91)和多模式成像(92, 93)。
在组织病理学方面,DoMore Diagnostics拥有一个获得CE标志的产品,用于预测H&E切片的结直肠癌预后(94)。此外,还有几项基于组织病理学的预后模型的验证研究(95, 96),包括一项研究,该研究展示了通过AI分析先前确定的预后特征可以被病理学家学习和使用(95)。
除了直接预测预后之外,还有几项研究使用AI预测先前确定的预后/预测生物标志物。例如,有一系列工作(97-99)专注于开发和验证用于**预测微卫星不稳定性(MSI)**的AI,这是一种与临床结果相关联的特征,也是免疫治疗的一个生物标志物(100)。这一应用开始进入商业化阶段,例如由Owkin开发的获得CE标志的产品(101),用于从H&E图像预测MSI。
知识点补充:微卫星不稳定性
微卫星不稳定性(Microsatellite Instability, MSI)是指由于DNA复制过程中微卫星区域的重复序列长度发生变化,导致基因表达改变的现象。微卫星
是基因组中存在的短的、连续重复的核苷酸序列
,如(CA)n或(AG)n,其中“n”表示重复单元的次数。在不同的个体中,这些序列的重复次数可能不同,这是多态性的一种形式。
MSI可以在两个层面上解释:
-
分子层面:
- MSI是由于DNA错配修复(Mismatch Repair, MMR)系统缺陷导致的。MMR系统是细胞内的一种机制,负责识别和修复DNA复制过程中发生的错误。
- 当MMR基因发生突变或功能丧失时,微卫星序列可能在细胞分裂过程中累积插入或缺失错误,导致微卫星序列长度的变化,这就是MSI。
-
临床和病理层面:
- MSI在某些类型的癌症中较为常见,尤其是结直肠癌、子宫内膜癌和胃癌。MSI阳性的肿瘤通常与更好的预后相关,因为这些肿瘤往往生长较慢,且对某些类型的化疗和放疗有较好的响应。
- MSI状态也是选择某些癌症患者接受免疫治疗的重要生物标志物。MSI阳性的肿瘤倾向于有更高的突变负担,这可能导致产生更多的新抗原,从而可能增强免疫系统对肿瘤的识别和攻击。
MSI的检测可以通过多种方法进行,包括:
- 聚合酶链反应(PCR):用于检测特定微卫星位点的不稳定性。
- 免疫组化(IHC):评估MMR蛋白的表达,MMR缺陷的肿瘤通常表现为IHC染色阴性。
- 下一代测序(NGS):可以检测肿瘤的MSI状态,同时提供关于肿瘤突变谱的详细信息。
MSI的了解对于癌症的诊断、预后评估和治疗选择具有重要意义。在某些情况下,AI技术也被用来从病理切片图像中预测MSI状态,这可能有助于快速诊断和治疗决策。
4-3:肺癌
非小细胞肺癌(NSCLC)相对较差的预后和免疫治疗在NSCLC中的变量成功,激励了许多使用AI预测这些患者预后、治疗反应和现有生物标志物的研究。这些努力包括用于生存预测的组织学(102)和基于CT(103)的模型,以及CT成像特征与组织学风险因素的相关性(104)。
许多研究已经证明了使用AI从NSCLC患者的H&E图像预测免疫治疗生物标志物的潜力,包括:
- 肿瘤突变负荷(TMB;参考文献76)
- PD-L1表达(105)
- 肿瘤浸润淋巴细胞(TILs;106, 107)
例如,一家AI初创公司Lunit使用其产品Lunit-Scope,目前仅用于研究,根据H&E图像中估计的TIL分布将肿瘤分类为炎症、免疫排斥或免疫沙漠。这些AI分类的表型随后被发现与免疫检查点抑制剂的反应有显著差异。Vanguri及其同事(108)的研究表明,包括CT图像、数字化的PD-L1免疫组织化学(IHC)切片和分子变异数据的多模态模型在预测NSCLC对免疫治疗的反应方面明显优于单模态模型。
此外,用于从IHC切片定量PD-L1表达的CE标志产品也存在(109-111)。
4-4:前列腺癌
也有努力使用人工智能(AI)来改善前列腺癌的预后预测。例如,P-NET(112)是一种稀疏深度学习模型,它以生物信息学指导、通路驱动的方式处理分子谱数据,以预测前列腺疾病状态,如转移,其中产生的预测分数与预后独立相关。
AI公司ArteraAI开发并测试了一种多模态AI方法(113, 114),该方法使用组织学图像
和临床数据
来预测前列腺癌的预后。这项技术已商业化,名为ArteraAI Prostate Test,现在通过一个临床实验室改进修正案(CLIA)认证的实验室提供临床使用(115)。
4-5:放射治疗
放射治疗是多种癌症类型的关键治疗方法,也是人工智能(AI)研究、开发和商业化的一个重要领域。
这包括在放射治疗的所有步骤中使用AI,包括图像分割、治疗计划、结果预测、质量保证以及AI引导的放射外科(116)。在这些应用中,特别是在临床图像(如CT、正电子发射断层扫描和计算机断层扫描(PET-CT)、MRI)中自动勾勒出器官危险区(Organs at Risk)的应用,是特别临床先进的领域。
Radici及其同事(117)最近对一家欧洲三级癌症医院的FDA批准和CE标志的Limbus Contour(LC)AI平台进行了评估,结果发现该技术显著减少了程序时间和观察者间变异性。MD安德森癌症中心也在创建一个全面的AI基础放射治疗计划助手,用于自动勾勒
和放射治疗计划
,并将主要针对低收入和中等收入国家,在这些地区AI可以提供可扩展的帮助(118)。
AI应用现在也在图像引导放射治疗、自适应放射治疗、立体定向放射外科(119)和普通手术等领域取得进展,其中自动勾勒同样有帮助(120)。对于更全面的近期进展,我们推荐读者参阅Huynh及其同事(121)的杰出综述。
4-6:分子肿瘤学
丰富的分子数据对于个性化癌症治疗变得越来越关键,跨多种癌症类型。这包括在下一代测序(NGS)处理和解释的几乎每个步骤中使用AI,包括突变识别(122, 123)、假象过滤(124)和驱动基因识别(125)。
对癌症中观察到的胚系和体细胞突变进行解释仍然是一个挑战,新的AI工具也正在出现,用于自动注释和解释变异。例如,最近的一项研究探讨了使用深度学习在癌症中进行致病性胚系变异检测(126)。该方法在前列腺癌和黑色素瘤中进行了评估,并优于标准遗传分析方法,为整合到临床实践奠定了基础。
“Dig”是一种深度学习框架,用于识别与基因组范围内中性突变率模型相比发现的体细胞突变(127)。该方法在准确性和功率方面优于其他多种驱动识别方法,并且运行速度快几个数量级。应用于Pan-Cancer Analysis of Whole Genomes数据集的37种癌症类型(128),Dig识别出几个潜在的隐秘剪接位点、非编码区域的重复变异以及罕见突变基因的变异。
最近,AlphaMissense,一种基于蛋白质结构预测工具AlphaFold的深度学习模型(129),被介绍(130)。AlphaMissense预测人类蛋白质组中所有可能的错义变异中有32%是致病的,但哪些亚组在癌症环境中是致癌的仍有待评估。
此外,CancerVar(131)是一个使用深度学习框架的AI平台,用于预测体细胞变异的致癌性,同时使用功能性和临床特征,可能为手动编写的数据库,如CiVIC(132)和OncoKB(133),提供一个稳健的替代方案。
另一个长期存在的诊断挑战是细胞起源预测,这在未知原发肿瘤的癌症中尤为相关,准确的原发信息可能会显著影响治疗策略。已经开发了多种AI方法来执行这些预测。这包括基于基因组学的算法,其中针对NGS算法已经经过严格评估,目前正在部署和评估其临床效用(134, 135)。基于转录组的算法也已开发(136, 137),尽管这些方法需要扩展临床转录组分析以评估其普遍性。整合多种分子输入以提高细胞起源预测的性能的其他方法可能进一步增强性能。Lu及其同事(138)的研究也展示了使用AI从常规组织切片预测肿瘤起源的潜力。
深度学习方法也对涉及分子肿瘤学的新兴治疗方法产生了影响。例如,个性化癌症疫苗正在广泛的临床指征中进行测试,最近的研究数据表明它们在现有免疫检查点阻断(139)的组合中具有潜在的作用。越来越多的,癌症特异性新抗原和相关免疫微环境的细胞类型的检测正在通过深度学习策略得到指导。这包括新抗原发现方法,如NetMHC-Pan(140)和HLAthena(141),以及相关的T细胞受体发现方法,如DeepTCR(142)和pMTnet(143)。
最终,这些方法的评估将在临床试验环境中进行,这可能指导这些免疫基因组学和深度学习算法在临床环境中的持续使用。
4-7:临床试验匹配与自动化预筛选
临床试验是评估和推进新的癌症治疗方法的主要机制。然而,仅有6%的癌症患者参与临床试验(144),并且在临床试验中仍然存在基于种族、性别和年龄的差异性(145, 146)。临床试验系统也受到整体效率低下的影响,其中20%的临床试验因患者招募不足而提前终止(147)。如果合理部署,人工智能(AI)可以提高临床试验系统的效率和患者多样性,并帮助医生将患者与临床试验相匹配。
从计算机科学的视角来看,临床试验匹配通常被视为自然语言处理(NLP)的挑战,其中患者的病历——通常仅作为非结构化的临床笔记可用——与临床试验的纳入和排除标准相匹配(148)。
目前存在多种非深度学习的临床试验匹配应用。一项2022年的元分析报告了跨多个商业和学术平台的10项已发表研究,发现大多数应用提供了与手工筛选相媲美甚至更优的性能,并在效率上有了显著提升(149)。大型语言模型(LLMs)的出现现在为改进NLP试验匹配提供了新的机会。
例如,多个团队已经报告了使用LLMs从临床笔记中有效提取结构化数据(150)并将患者与临床试验相匹配的研究(arXiv:2303.16756, arXiv:2306.02077, arXiv:2304.07396, 和 arXiv:2308.02180)。所有这些努力将从开发参考数据集、理想情况下来自多个医院的参考数据集,以及评估跨不同医院环境的临床整合的前瞻性研究中受益。
4-8:治疗决策支持
大型语言模型(LLMs)的快速进展激起了人们对它们在肿瘤学治疗决策支持中潜在作用的兴趣。
近期的一些研究探讨了使用LLMs协助完成如为复杂癌症病例的患者识别个性化治疗选项等任务的可行性。例如,一项最近的研究评估了四个LLMs在为晚期癌症的虚构患者提供建议治疗选项方面的表现。尽管与人类专家相比,LLMs生成了更广泛的治疗选项,但它们的推荐常常与专家共识相偏离。尽管存在这些局限性,LLMs能够正确识别几种重要的治疗策略,甚至提出了专家不太容易想到的合理选项(151)。
同样,第二项研究调查了使用ChatGPT为晚期实体瘤提供一线治疗建议的情况。表现总体上有希望,尽管在某些情况下,模型可能提供了过时的信息,例如研究性药物名称(152)。总体而言,这些最近的努力表明,LLMs在肿瘤学临床决策支持方面提供了有希望的应用,但进一步的研究是必要的,以解决准确性、可靠性、与现有临床工作流程的整合以及监管要求方面的局限性。
知识点补充:一线治疗
一线治疗(First-line therapy)是指针对某种疾病,特别是癌症,首次使用的治疗方案。这个术语通常用于描述癌症治疗,因为癌症治疗可能包括多个阶段或多个不同的治疗策略,这些治疗策略根据病情的进展和对之前治疗的响应来顺序使用。
以下是关于一线治疗的几个关键点:
-
初始治疗:一线治疗是患者接受的第一个治疗方案,通常是基于当前医学证据和指南推荐的最有效或最适当的治疗方法。
-
多种癌症类型:在不同类型的癌症中,一线治疗可能包括手术、化疗、放疗、靶向治疗、免疫治疗或这些方法的组合。
-
预后和分期:一线治疗的选择很大程度上取决于癌症的类型、分期、患者的整体健康状况以及可能的副作用。
-
治疗目标:一线治疗的目标是尽可能地消除癌症、控制病情发展、缓解症状以及提高患者生活质量。
-
后续治疗:如果一线治疗没有达到预期效果,或者癌症在治疗后复发,患者可能会接受二线治疗(Second-line therapy)、三线治疗(Third-line therapy)等,这些后续治疗方案可能更具侵袭性或使用不同的药物。
-
临床指南:一线治疗的选择通常遵循临床指南,这些指南基于大规模的临床试验和研究证据制定。
-
个体化医疗:尽管有标准治疗方案,但一线治疗也可能根据患者的个体情况和肿瘤的特定特征进行个性化调整。
-
经济和可获得性:治疗选择也可能受到经济因素和治疗可获得性的影响,特别是在资源有限的环境中。
一线治疗是癌症治疗旅程的重要起点,其效果和患者对治疗的响应将影响后续治疗决策和整体治疗计划。
4-9:优化行政工作流程与患者参与
现代电子病历(EMRs)中的文档和编码要求广泛,给临床医生带来了重大的时间负担(153),并导致了倦怠(154),这可能会使提供者远离临床实践并影响对医疗的获取。
一些公司已经开发了基于临床就诊转录的AI辅助记录技术来生成文档(155, 156)。LLMs还可以用于将分散的医疗记录统一成患者病例的简洁总结(157),使医生能够专注于与患者一起制定治疗计划。
在患者参与方面,现代肿瘤学的复杂性以及处理癌症的情感负担性质创造了一个环境,其中患者对疾病的理解可能有限。例如,许多晚期癌症患者并没有完全理解他们治疗的姑息性意图(158)。LLMs的进步可以生成面向患者的复杂和多媒体信息的总结,这有助于患者理解自己的状况,而不会给医生的时间带来重大额外负担。
对于这些总结来说,它们在各个群体中都必须是准确和可解释的,以防止误解至关重要。最近的一项研究已经显示出对这些目标的希望,其中ChatGPT在回答关于癌症的问题上表现良好(159)。
五、挑战与机遇
尽管在肿瘤学领域的人工智能方面已取得许多进展,但仍存在重大挑战。这些挑战包括:
- 获取和共享稳健的医疗数据
- 患者隐私风险
- 确保人工智能在所有患者中的表现公平性
随着更多的人工智能模型进入临床,如何在临床工作流程中有效整合人工智能应用,以及评估对患者和医疗系统的最终影响,也成为了挑战。
本文总结了与肿瘤学中人工智能相关的核心挑战(图3),并描述了社区为解决这些挑战已采取的多种方法。
Figure 3 以图形化的方式展示了以下几个关键点:
-
数据管理和共享(Data Curation and Sharing):
- 强调了为了开发健壮和可推广的AI模型,需要从多个独立来源获取大量训练数据。
- 讨论了在数据共享方面存在的障碍,包括知识产权保护、数据互操作性挑战和患者隐私保护。
-
偏见和公平性(Bias and Fairness):
- 指出了在AI医疗应用中确保性能和使用在不同人群中的公平性是一个主要挑战。
- 提到了AI算法中潜在的偏见问题,以及如何通过增加公共数据集的多样性和确保AI在不同患者人群中表现良好来减少偏见。
-
监管和评估(Regulation and Evaluation):
- 讨论了AI医疗工具的监管框架,包括美国和欧盟的监管机构如何根据风险水平对医疗设备进行分类和监管。
- 强调了持续学习AI的独特能力,以及如何从单一产品批准转变为全生命周期变更管理和强有力的售后监测。
-
整合到临床工作流程(Integration into Clinical Workflows):
- 描述了将AI应用有效整合到临床工作流程中所面临的挑战,包括计算基础设施、数据管道开发、临床系统整合以及AI结果的解释性。
5-1:数据整理与共享
稳健、可泛化的人工智能模型需要大量的训练数据,理想情况下来源于多个独立的数据源(160)。这一点在癌症研究中尤为重要,因为每个医疗点在患者数量、患者多样性以及嵌入的临床实践方面都有限制。
对于罕见癌症来说,这一点更为尖锐,因为单个医疗点可能只治疗少量此类患者,而多站点数据集成对于建立有意义的科学或临床见解是必要的(161)。除了训练,人工智能模型还必须在多个独立站点进行测试,并评估其整体准确性和潜在的偏见(162)。尽管需要进行多站点训练和评估,但在癌症数据共享方面仍存在重大障碍(163)。这包括保护知识产权、数据互操作性挑战以及保护患者隐私,如健康保险便携性与责任法案(HIPAA)、联邦关于人体受试者保护的政策和欧盟通用数据保护条例(GDPR)等多个监管框架所规定的那样(163,164)。
为了克服数据共享和隐私方面的挑战,癌症社区已经探索了三种主要选项。
第一种:集中学习(161)
其中一个组织团体制定多方法律协议并创建一套共享的安全协议。一旦所有站点同意,数据就会转移到中央安全区,在那里可以开始人工智能开发和评估。这是迄今为止大多数商业和学术人工智能努力的标准默认方法。
第二种:去识别并公开释放数据
通常通过联盟模式。例如,CAMELYON(45)和国际脑肿瘤分割(arXiv:1811.02629)挑战都向机器学习团队提供了大规模的去识别数据集,而最近创建的Nightingale Open Science Initiative(165)旨在使更多的去识别数据集可用。
⚠️去识别数据集(Deidentified Dataset)是指已经通过特定的数据处理技术移除了或隐藏了可以直接识别个人身份信息的数据集。在医学研究和数据分析中,去识别化是为了保护患者隐私和遵守数据保护法规(如HIPAA、GDPR等)而采取的重要步骤。
去识别数据集允许研究人员在不违反隐私权的情况下,对大量数据进行群体层面的分析,从而推动医学研究和公共卫生的发展。然而,去识别化是一个复杂的过程,需要专业知识来确保数据的安全性和合规性。
第三种:联邦学习(FL)
其中数据在每个机构保持私密,但机器学习模型以分布式方式联合更新和共享(166,167)。尽管FL引入了许多物流和算法复杂性,但在缩小FL与集中学习(160)之间的模型性能差距方面已取得进展,其中FL已成功应用于多种癌症应用。例如,Ogier du Terrail及其同事(83)使用FL方法开发了一个AI模型,用于预测三阴性乳腺癌患者对新辅助化疗的组织学反应。Pati及其同事(161)也使用FL跨71个站点预测胶质母细胞瘤患者多参数MRI扫描中的肿瘤边界。
除了跨临床站点进行数据整理外,还需要对数据模态进行整理,以实现多模态人工智能方法。上述大多数人工智能方法都是单模态的,例如仅从医学图像进行预测。然而,肿瘤学家依赖关于患者的全部信息:
- 放射学图像
- 病理学图像
- 实验室数值
- 基因组数据
- 家族史
- 以前的临床笔记/数据
这些不同的数据模态可能包含独特且互补的信息;因此,多模态人工智能是肿瘤学研究的活跃领域(168,169):
- Chen及其同事(75)开发了一种方法,将基因组数据与组织病理学图像融合,以预测泛癌队列中的生存期。这项工作利用了TCGA数据库,该数据库已成为推进人工智能努力的关键多模态数据集。
- Boehm及其同事(170)使用TCGA和一个内部队列将基因组数据、组织病理学成像和放射学成像融合,以预测高级别浆液性卵巢癌的生存期。
- ArteraAI开发了一种临床可用的实验室检测方法,通过整合数字病理学图像与临床元数据来预测前列腺癌预后(115)。
肿瘤学中对多模态方法的日益关注与自然图像和文本中的类似努力相平行,例如OpenAI的GPT-4模型(arXiv:2303.08774)。这类在大量数据上训练的“基础模型”(arXiv:2108.07258)在减少标注数据量的下游任务中显示出前景,这在肿瘤学应用中是一种常见的情况。除了使用像GPT-4这样的通用基础模型外,还有越来越多的努力在为医疗保健构建特定领域的基础模型,包括病理学(参考文献172;arXiv:2309.07778和arXiv:2307.12914)。这些努力进一步强调了需要稳健数据集的重要性,因为同一数据集甚至模型架构可以用于支持多种临床任务。
这些研究表明,尽管存在数据共享和隐私保护的挑战,但通过采用集中学习、去识别数据公开和联邦学习等多种方法,可以有效地促进人工智能在肿瘤学中的应用。
多模态数据集的建立和利用,如TCGA数据库,对于开发能够综合多种类型数据的人工智能模型至关重要。这些模型的发展不仅有助于提高癌症诊断和治疗的准确性,而且有助于推动个性化医疗的发展,从而更好地满足患者的需求。
5-2:偏见与公平性
在医学领域的人工智能中,一个普遍的挑战是确保在人群中的性能和使用公平性(173)。相反,人工智能提供了减轻已知存在的医疗保健差异的机会(174, 175)。
这些考虑在肿瘤学中当然适用,因为潜在偏见的来源涵盖了整个患者护理和人工智能生命周期的连续统一体。作为一个说明性的应用,乳腺癌筛查在一般医疗保健公平性和人工智能的背景下受到了深入研究。在实际临床实践中,对于未被充分服务的群体,如黑人女性,在新成像技术获取和患者结果方面存在已知的不平等(176–178)。
从人工智能的角度来看,既有偏见持续存在的例子,也有潜在减轻偏见的努力。例如,一组在主要来自白人人群的乳腺X光片上训练的人工智能模型,在更多样化的人群上测试时表现出较低的性能(179)。相反,有努力生成更多样化的公共数据集,如EMBED(180),并且有实例表明人工智能性能在不同患者群体中普遍良好(9, 10, 12)。
公共数据集的多样性在包括TCGA(181)和GENIE(182)在内的其他肿瘤学应用中也是一个挑战。鉴于遗传血统可能与某些遗传特征和疾病有因果关系(178, 183–186),而与社会构建的种族概念不同,公平性和多样性在这些应用中尤其重要。
总的来说,人们对人工智能算法公平性的认识正在增长,包括来自监管机构的指导,但在减少人工智能和更广泛医疗保健中的偏见方面仍有很大的改进空间。
5-3:监管与评估
大多数描述的人工智能应用都受到监管机构的管辖,这取决于地区的法规和设备的预期用途。美国和欧盟目前都没有为基于人工智能的医疗工具制定特定的监管批准途径。相反,两者都将人工智能医疗应用作为医疗设备进行监管,并根据对个人患者的潜在风险水平对这些设备进行分类。
美国目前遵循一个集中的医疗设备监管模式,由FDA监督。FDA将人工智能应用归类为软件作为医疗设备(SaMD),并采用与其他SaMD设备和非人工智能算法相似的监管流程(187)。FDA清理事项的要求主要取决于设备的类别和预期用途,设备类别从I(最低风险)到III(最高风险)。
迄今为止的大多数人工智能设备,包括肿瘤学领域的设备,都属于Class II,适用于FDA 510(k)途径,并需要设备与FDA已经批准的其它工具“实质上等同”(187)。值得注意的是,鉴于这种分类,FDA通常不需要随机对照临床试验,尽管这取决于设备的预期用途。与FDA的单一集中模型不同,欧盟有两项广泛的规定来规范医疗设备的安全性和有效性,包括人工智能应用。这些是医疗设备法规,适用于植入体内的设备,以及体外诊断设备法规,适用于测试人体外标本的设备。在欧盟,没有单一的中心机构负责设备评估;相反,评估由认证组织处理,这些组织有权颁发CE标志。
未来,美国和欧盟都可能演变其监管框架,以利用人工智能的独特特性并减轻相应的风险。特别是,不断从新数据中学习以改进人工智能的独特能力可能需要从单一产品批准转向生命周期变更管理和强大的上市后监测(188)。为此,美国FDA正在开发一个“预先确定的变更控制计划”路径,以使设备中的AI更新而不需要重新提交(189)。同样,欧盟AI法案将要求设备制造商记录其修改和随后测试验证AI医疗设备的策略(190)。一个特别演变和争论的话题是LLM的监管,以及在哪些情况下和预期用途下它们符合医疗设备的标准(191, 192)。
监管审批进展的监控面临的挑战之一是缺乏及时更新、频繁刷新的人工智能设备和其特定特征的数据库。FDA已经在过去几年每年发布一份人工智能启用的设备列表(193),这对该领域非常有价值,但快速进展和汇总更详细特征的价值创造了对补充解决方案的强烈需求。
为此,多个研究也试图创建批准的人工智能设备的快照。例如,Luchini及其同事(194)总结了截至2021年的71种FDA批准的肿瘤学设备(NCT05562778, NCT04354675 RRID:SCR_002309),发现放射学占批准的设备的大多数(54.9%),其次是病理学(19.7%)。这些算法主要设计用于协助医生进行诊断和/或量化基于图像的特性(例如,病变大小),但最终决策由医生做出。
同一研究还发现,乳腺癌是最常提及的癌症类型(31%),最常与放射学相关,为人工智能在乳腺X光片中的成熟提供了进一步的证据。Muehlematter及其同事(195)调查了2015年至2020年间在美国和欧盟批准的所有AI医疗设备,也发现美国欧盟批准的设备大多数是放射学相关的。
与监管密切相关的是确保设备的安全性和有效性的评估,其中临床试验仍然是评估新临床干预的黄金标准。尽管AI肿瘤学领域的临床试验仍然罕见,但我们现在开始看到此类试验的增加。在撰写本文时,对ClinicalTrials.gov上“癌症”和“人工智能”的搜索发现526项研究,其中81项被归类为干预性和正在积极招募的试验。这些包括涉及基于人工智能的聊天机器人的试验,如在遗传咨询中的应用(NCT05562778, NCT04354675 RRID:SCR_002309)。在过去两年中,也有多个临床试验发表了结果,如上述乳腺癌和结直肠癌筛查部分所述。
AI评估和开发的一般关键组成部分是确保透明度和可复制性,允许独立的研究团体审查并建立在先前的科学进展上(196)。这对于评估数据集的可能偏见和在不同临床环境中的泛化性尤为重要。EQUATOR(增强健康研究质量和透明度)网络目前提供了一系列针对医疗保健和肿瘤学中AI的不断增长的报告指南(197)。这包括MINIMAR(医学AI报告的最低信息),它定义了一个最小报告要素集,涵盖研究人群和设置、患者人口统计、模型架构和模型评估(198)。其他指南包括SPIRIT-AI(Standard Protocol Items: Recommendations for Interventional Trials–Artificial Intelligence),它为AI重点的协议文档提供了一个扩展的15项集(199),以及CONSORT-AI(Consolidated Standards of Reporting of Trials–Artificial Intelligence),它为报告AI重点的临床试验提供一个扩展的14项集(200)。
最后,随着人工智能越来越多地用于分析真实世界数据(RWD),欧洲医学肿瘤学学会关于报告肿瘤学真实世界证据的指导方针(ESMO-GROW)现在提供了关于在肿瘤学中使用RWD的发表指南,以及特定的AI焦点报告指南(201)。
5-4:整合到临床工作流程
实现人工智能在肿瘤学中的潜力需要有效地整合到临床工作流程中,这既提出了物流挑战,也提出了科学挑战(202)。人工智能应用需要大量的计算基础设施(无论是本地还是基于云的)和高技能的工程师——这些都可能进一步扩大已经紧张的医疗信息技术(IT)预算。
除了最初的硬件考虑之外,还必须开发数据管道,以有效地将数据传输到人工智能系统,并随后使人工智能结果可供临床医生使用。这些工作流程需要整合到临床系统中,对于具有有限定制的专有系统来说,这可能特别具有挑战性。AI结果的确切形式需要仔细考虑临床终点和设备的预期用途。
为此,解释性是一个经常被提及的“黑盒”AI模型的挑战(203, 204)。因此,可解释的人工智能(XAI)是一个高度活跃的研究领域,专注于传达AI模型如何得出其预测。
常见的XAI方法涉及事后解释,例如生成突出显示输入中最有助于模型预测的方面的显著性图(204)。目前正在进行的工作是提供更具结构化的可解释性,例如将AI预测表示为人类可解释的概念(205–207)和基于语言的解释(medRxiv 2023.06.07.23291119;参考文献208, 209)。然而,对于临床使用来说,最佳的可解释性形式是一个重要的开放性问题,最近的一份报告指出,FDA批准的医疗成像设备中的可解释性范围通常有限(medRxiv 2023.11.28.23299132)。
即使有了有效的基础设施和AI输出,货币化和责任问题也可能阻碍广泛采用,其中绝大多数商业可用的AI设备目前尚未报销(210)。这种报销的缺乏也使得评估临床整合的真实程度具有挑战性,因为除了少数应用之外,无法使用传统方法来衡量医疗设备的使用,如保险索赔数据(211)。
尽管存在这些挑战,但正在进行显著的努力以促进高效的临床整合。特别是,越来越多的人工智能“编排”平台正在作为临床系统和AI算法之间的中介发挥作用。而不是让每个AI应用程序分别与临床系统接口,这些平台,如由Nvidia(212)和CARPL(213)开发的那些,作为单一接口,并根据基于规则的逻辑协调多个AI算法的执行。
六、未来方向与结论
肿瘤学中的人工智能领域正在快速发展,这一发展涵盖了算法进步和新临床应用案例。在未来几年内,我们可能会看到一系列新的AI监管批准和临床试验结果,这些结果可能会超越当前AI作为辅助检测/诊断工具的普遍应用案例。我们也很可能会看到多个基于LLM
的新应用和利用多模态数据的应用。
然而,肿瘤学中AI的未来不仅仅是由技术创新推动的。我们看到了几个将推动肿瘤学中AI未来发展的基本要求(图4)。
Figure 4
强调了为了实现AI在肿瘤学中的有效临床采用,需要超越技术进步,并包括以下几个关键点:
AI对患者结果的影响(AI Impact on Patient Outcomes)
强调了需要对AI如何改善患者结果进行客观评估。这要求增加对真实世界研究的投资,并且最好是随机临床试验,重点是批判性地评估AI在不同患者人群和临床场所的普适性。
从AI中获得的医疗保健价值(Healthcare Value Derived from AI)
提出了需要严格评估AI部署的医疗保健价值,并将其与支付结构相结合。医疗保健价值被定义为每花费一美元所获得的健康结果,是做出明智医疗保健投资的关键指标。
临床整合指南(Clinical Integration Guidelines)
指出了需要一个明确和标准化的AI临床整合流程,涵盖从技术标准到利益相关者参与和培训的各个方面。
持续监测(Continuous Monitoring)
强调了利益相关者必须采取客观流程,持续监测AI的影响并衡量患者安全。这包括对“冻结”的AI设备也需要长期监测,因为它们可能会随着时间的推移经历数据或人群的转移。
总的来说,这些考虑将强烈塑造肿瘤学中AI的未来,以帮助确保AI有效、公平和可持续地用于改善癌症患者的护理。