综述类paper

Walter W, Haferlach C, Nadarajah N, et al. How artificial intelligence might disrupt diagnostics in hematology in the near future[J]. Oncogene, 2021, 40(25): 4271-4280

1摘要

人工智能(AI)在医疗保健领域正变得不可或缺。成功应用和有前景的方法包括使用模式识别软件预处理和分析数字医学图像、利用深度学习算法进行疾病分类、数字孪生技术和计算机模拟临床试验。此外,机器学习技术用于识别电子健康记录中的模式和异常,并对可穿戴健康跟踪设备收集的数据进行即时评估,以进行深入的纵向表型分析。近年来,自动图像分类取得了显著进展,甚至在某些情况下达到了超越人类水平。尽管对遗传背景重要性的认识日益提高,血液学诊断仍主要基于表型评估,无论是通过细胞形态学中的显微图像分析,还是通过流式细胞术获得的二维图中细胞群体的分析。AI算法不仅能发现人眼可能忽视的细节,还能找到全新的图像解释方法。随着分子遗传学中高通量下一代测序的引入,信息量呈指数级增长,为机器学习方法的应用做好了准备。这些方法的目标是实现个性化和知情干预,提高治疗成功率,改进诊断的及时性和准确性,并尽量减少技术引起的误分类。AI应用的潜力几乎是无限的,那么在血液学领域,我们目前处于什么位置,又能走多远呢?

2介绍

在过去的15年里,白血病和淋巴瘤的综合诊断变得越来越具有挑战性。为了遵循世界卫生组织(WHO)的分类指南,必须结合细胞形态学、细胞遗传学、免疫表型和分子遗传学等不同领域的结果来建立诊断。新一代测序(NGS)技术的引入以及伴随的分子遗传学分析谱的拓宽带来的通量增加提高了分子遗传学结果在诊断中的价值,如2017年WHO白血病和淋巴瘤分类的修订所示。
丰富的分子信息拓宽了白血病和淋巴瘤诊断的领域,并带来了对这些疾病基础生物学的新见解,促使诊断从表型转向基因型。此外,随着诊断和预后标志物清单的增加、个体间变异性的精细估计,以及努力建立不同信息层之间的关联,从而可能最终改善靶向治疗选择,个性化医学正在逐步实现。同时,数据收集过程不可避免地变得数字化,允许自动整合不同的测试结果,并方便所有相关利益方访问。这一过程还提供了在多个机构之间共享信息的机会,促进临床和基因组专家之间的合作,帮助将患者分配到特定的临床试验或靶向治疗方案。因此,这一旅程正在从模拟转向数字,从表型转向基因型。
在这里插入图片描述
图1:左侧展示了监督学习的不同领域,从人工智能到机器学习,最后到深度学习。右侧描绘了监督学习的过程。右上角列出了好的训练数据集的要求。数据用于自动特征提取,从而生成模型,模型性能通过其正确预测未见实例(测试数据)标签的能力来评估。根据评估结果,对模型进行再训练以优化特征和模型。经过多轮再训练,最终模型形成。AI代表人工智能,DL代表深度学习,ML代表机器学习。

3快速介绍机器学习的原理

由于基于人工智能的应用的广泛兴趣和成功,术语“人工智能”和“机器学习”在各种科学学科中被广泛传颂,而在医学领域常常互相交换使用。然而,尽管人工智能致力于模拟人类行为和智能,但作为人工智能的一个子领域,机器学习指的是在数据中自动检测模式和关联(图1)。作为机器学习的一个子领域,深度学习允许层次化神经网络学习通常非常复杂的数据集的抽象表示。人工智能和机器学习并不是新颖的概念,早在开展初期就对人工智能的潜力、风险和限制进行了广泛的讨论。

生物领域技术的显著进步,特别是高通量方法,如下一代测序(NGS),已经导致以原始成本的一小部分更快地生成高质量数据,从而增加了数字数据(=大数据)的可用性。尽管如此,医学图像分类作为监督学习的一个例子,到目前为止,从ML方法引入医学中受益最多。其优点是模型的适应性,以及ML根据经验自动执行任务而无需获得明确的指令,其规模超过了人类大脑的能力。该算法使用大量数据进行训练,除了为每张图像提供正确的类别标签外,几乎不需要人工干预,然后提取相关特征并绘制自己的连接,最终开发出一套规则和关联。该方法的性能通过其预测训练过程中未使用的一组图像的正确标签的能力来评估(图1)。最近对血液学中ML的不同类型和技术进行了综述。

选择足够数量和质量的训练和测试数据集对于获得可靠的结果至关重要,这些结果在真实世界场景中是可复现的,并且对于不同地点和患者群体是普适的。在医学中,训练数据集由于不同表型和疾病在总体和不同亚群体中的不同患病率而不可避免地不平衡。算法训练的数据集可能受到多种混杂因素的偏倚,而这些因素对开发者来说并不总是明显的。因此,通过收集非常多样化的训练集来捕捉尽可能多的变异性是至关重要的,以降低过度拟合的风险,并增加在未见过的实例上获得强大性能的可能性。理想情况下,开发的机器学习方法应在医院和/或实验室之间具有可转移性,而不会降低质量。然而,由于当前在操作流程上缺乏标准化,很可能无法避免进行微小的调整。

4当前应用和进展

4.1 Cytomorphology(细胞形态学)

150多年来,细胞形态学一直是血液学诊断的支柱,今天仍然如此。如果检测到异常血细胞计数,首先进行细胞形态学检查,提供初步诊断并指导其他诊断方法,如细胞遗传学,免疫表型或分子遗传学,以证实结果。然而,所获得的初步诊断仅基于表型,其正确性取决于分析前程序,以及人员准确检测异常细胞(甚至是非常罕见的类型)的经验和能力。因此,数字显微图像的自动化预处理和评估可以有利于结果的再现性,并允许血液学家和病理学家专注于不符合标准模式的边缘病例,从而减少整体工作量。

关于外周血细胞,成功应用的方法范围从白色和红细胞的自动计数,到成髓细胞和成淋巴细胞之间的区分,以及不同淋巴细胞类型的同时分类,以及17种和21种不同谱系和成熟状态的细胞类型,包括罕见和恶性白血病细胞,仅举几例。单个细胞的自动识别和注释也构成了不同类型AML分类的基础,反应性和MPN样本的区分,以及用于ALL诊断和ALL亚型分类的恶性和健康细胞的区分。每种方法的结果质量在很大程度上取决于标准化的分析前、分析和分析后参数。

然而,虽然在外周血涂片中细胞密度足够低以容易地识别单个细胞,但骨髓涂片的解释要困难得多。因此,有必要对显微图像进行预筛选,以识别高质量和单细胞分辨率的区域。在这里,重要的是从图像的不同部分选择区域,以确保检测到所有恶性细胞,即使这意味着损害质量。由于任务的复杂性增加,因此到目前为止,即使用于骨髓涂片辅助判读的DL模型也只能产生中等结果(表1),这并不奇怪。最近,数字病理学(包括组织学载玻片的数字化)已成为一般癌症诊断以及血液学诊断的强大工具,这在很大程度上得益于DL的引入,用于整个载玻片图像分析。

4.2 Cytogenetics(细胞遗传学)

细胞遗传学是依赖形态特征分析和解释的血液学诊断方法。染色体分带分析长期以来一直用于血液学,是识别细胞遗传学异常的金标准,这些异常可将患者分为不同预后类别。准确的核型分析依赖于高质量的分裂中期染色体捕捉,需要培养细胞并在分裂中期阶段停滞,随后对染色体进行分带和染色以突出诊断细节。然而,核型分析是一个非常耗时和复杂的任务,需要高度自动化。过去30多年里,各种自动分裂中期捕捉和半自动或互动核型分析系统已经问世,并在经典人类遗传学,尤其是产前诊断中越来越有用。

自动核型化面临的挑战多种多样,尚未完全解决。首先,必须识别和选择单个染色体,排除来自下游分析的伪影和重叠或接触的染色体。早在2007年就提出了自动化工作流程,但大部分流程仍需要一些手动筛选,以避免大量丢弃和由于不幸切割重叠染色体而人工创建异常染色体。接下来是对分离的染色体进行标记并将其分配到核型图中的相应位置。对于自动化过程,确定一个优化且精简的染色体特征集对于准确性和稳定性至关重要。用于标记的常见特征包括染色体的形状和大小、着丝粒位置以及独特的带状图案。特别是带状图案已被广泛研究,以便高效地计算这些图案,作为染色体分类的先决条件。

在过去的20年中,已开发了各种染色体分类器,包括ANN 、竞争性神经网络团队 、基于小波变换的线性鉴别分析以及不同版本的(深度)卷积神经网络,其准确率从85.2%到98.6%不等。通常通过正确的对齐和定位染色体沿垂直轴作为预处理步骤来改善分类结果。错误分类通常涉及大小、形状和外观非常相似的染色体,因此即使对于人类专业人员来说,区分它们也具有挑战性。

在肿瘤细胞遗传学中,染色体异常,包括数目和结构异常,是相当常见的,对自动化方法提出了进一步的挑战。数目异常通常涉及正常染色体,并且大多数方法可以很容易地扩展到这个任务上。另一方面,结构异常则更具挑战性,因为可能性非常多样,而且有时可用的训练资料有限。然而,有希望的早期结果显示,将来也可能以自动化方式检测出结构异常的核型图。

4.3 Immunophenotyping(免疫型分析)

除了细胞形态学外,多参数流式细胞仪(MFC,免疫表型分析)是白血病和淋巴瘤诊断的核心方法。MFC利用荧光染料结合的单克隆抗体,针对诊断相关的抗原,根据细胞的光散射特性和抗原表达模式来分析细胞群体。特定的软件自动测量和捕获相应荧光染料的表达。随后,人工专家对大量的二维图进行顺序分类程序,以识别和标记感兴趣的细胞群体。虽然这种方法看起来比细胞形态学或组织学更客观,但所有步骤都容易产生错误,影响甚至偏向后续的解释。虽然已经有标准化的程序来控制样品制备和测量的质量,但解释仍然依赖于专家的知识,存在观察者之间的变异性。因此,为了减少对专家知识的依赖,并增加数据解释的可重复性,实施自动化程序是可取的。

Zhao等人进行了一项尝试,他们使用发光轮廓的自组织映射作为深度卷积神经网络的输入,以区分健康样本和肿瘤样本,以及对成熟B肿瘤亚型进行分类。在各种血液肿瘤中,已经应用了不同的聚类和机器学习技术来联合细胞聚类和识别异常样本表型,包括AML样本和淋巴瘤样本。Angeletti应用了遗传算法来区分AML和对照组样本,而Bigorra等人证明了神经网络方法在区分健康对照组、病毒感染样本和CLL患者方面具有最高的准确性。只有少数方法尝试在没有前置图像转换的情况下使用流式细胞术数据进行分类。Biehl等人使用广义矩阵相关性学习向量量化将AML患者与健康对照组分离,Müller等人则应用XGBoost模型将淋巴瘤样本分配到各自的亚型中。

4.4 Molecular genetics(分子遗传学)

虽然其他领域集成人工智能技术来模仿人类智能并复制经验丰富的诊断医生的知识,但临床分子遗传学的目标是人工智能如何在不久的将来破坏血液学诊断,以实现基于ML的方法来执行人类无法完成的任务。随着高通量测序技术的引入以及伴随的大基因组甚至整个基因组和转录组的分析,分子遗传学已经进入了大数据领域(表1)。单个人类基因组包含2x ~ 32亿个核苷酸的信息,挖掘数据以获得临床相关见解很快变得繁琐。

临床基因组分析的每个步骤都可以从机器学习和深度学习方法的整合中受益,包括但不限于DNA序列模式的识别、变异调用、变异效应预测和分类。尤其是在分析基因增加的情况下,变异解释变得越来越重要。对致病性和临床可行的遗传变异进行优先排序对于临床决策至关重要,并且为自动疾病分类奠定了基础。

目前,对于一些实体,世界卫生组织的分类仅将分子遗传标记作为附注提及,但越来越多的人认识到更广泛的遗传背景对诊断的重要性。目前,优先选择对疑似疾病相关的一组预定义基因区域进行测序,而不是全外显子组测序,原因是成本降低、减少反应时间,并限制无法在临床上应用的过多信息。通过将突变谱与表型变化和临床数据整合,可以丰富得到的突变谱,近期Nagata等人应用贝叶斯机器学习技术在骨髓增生异常综合征(MDS)中识别与诊断和预后相关的遗传变异与细胞形态学变化之间的关联。机器学习算法还被应用于将突变数据、外周血值和临床数据整合为基因-临床模型,以区分各种骨髓疾病。然而,长期目标可能是仅依赖分子遗传数据进行疾病和亚组分类,这是之前一些研究团队所做的。

将基于机器学习的方法应用于分子遗传数据不仅与临床诊断有关,还与预后和药物反应的预测有关。Wagner等人将不同数据库的分子结果组合到一个人工神经网络中,以识别出能够将ELN(European LeukemiaNet)血液系统肿瘤患者分成具有不同生存概率的亚组的预后性3基因签名。针对一个NPM1突变的AML队列,应用有监督的机器学习方法识别出临床重要的突变,并将其组合成遗传分数来确定高复发风险的患者。有监督的机器学习方法识别出可靠地将具有RUNX1-RUNX1T1突变的AML患者分配到有利和不利风险类别的特征。在MDS队列中,利用先前的市场篮子分析算法,识别出与低甲基化剂治疗反应强烈相关的分子标志。

尽管转录组分析的临床应用通常仅限于通过qPCR对少数基因的表达进行定量,但不同的研究也证明了更大基因组和基于深度学习的方法在患者分类、生物标记物检测和预测抗癌药物的临床反应方面的综合优势。为了克服大规模基因表达数据带来的困难,已经将深度学习应用于从组织表达谱中估计细胞类型组成。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值