人工智能在医学图像中的应用:从机器学习到深度学习

目的:人工智能(AI)模型在生物医学研究和医疗服务中扮演着越来越重要的角色。本综述聚焦于在现实世界背景下,开发AI应用作为临床决策支持系统时需要澄清的挑战性问题。

      方法:进行了一项叙述性综述,包含对1989年至2021年间发表的指导性文章的批判性评估,以指导挑战性部分。

      结果:我们首先阐述了机器学习(ML)/放射组学和深度学习(DL)方法的架构特征。对于ML/放射组学,描述了特征选择以及训练、验证和测试的阶段。DL模型被呈现为多层的人工/卷积神经网络,允许我们直接处理图像。数据整理部分包括技术步骤,如图像标注、图像注释(其中分割是放射组学的关键步骤)、数据统一(能够补偿通常在非AI成像研究中产生噪声的成像协议差异)以及联邦学习。随后,我们专门讨论了:样本量计算,考虑AI方法中的多重检验;有限且不平衡数据集的数据增强程序;以及AI模型的可解释性(所谓的黑箱问题)。最后,以综述的方式呈现了选择ML与DL来实现医学影像AI应用的优缺点。

      结论:生物医学和医疗系统是AI应用最重要的领域之一,医学影像可能是最适合和最有前景的领域。对具体挑战性问题的澄清促进了此类系统的发展及其向临床实践的转化。本文发表在Physica Medica杂志。

亮点

  • 提供了将AI应用开发为临床决策支持系统的策略。

  • 我们关注放射组学机器学习与深度学习应用领域之间的差异。

  • 提供了优缺点、建议以及软件工具的参考。

关键词:人工智能 深度学习 机器学习 医学影像 放射组学

1. 背景

      人工智能(AI)模型在生物医学研究和临床实践中扮演着越来越重要的角色,展现了其在多个应用领域的潜力,如风险建模与分层、个性化筛查、诊断(包括分子疾病亚型的分类)、治疗反应预测以及预后预测 。这些突破性的进展可能通过整合来自异质来源的多重数据流而产生临床影响。这些来源包括医学影像(尤其是肿瘤患者的数据占据了患者数据的最大部分)、疾病风险因素、多组学数据、治疗程序/方案以及随访数据。将这些来源有效整合到能够提供高性能医疗服务的模型中,将促进人类智能与AI的融合。所有这些研究领域都可以极大地增强当前向精准医疗发展的趋势,导致更可靠和个性化的方法,对诊断和治疗路径产生高影响 。这意味着从统计和基于人群的视角向个体预测的范式转变 ,从而允许更有效的预防行动和治疗规划。

     然而,尽管已经发布了若干关于AI模型开发和使用的指南 ,潜在的AI策略仍然众多且多样。在“如何将AI应用开发为临床决策支持系统”方面,仍存在挑战和需要进一步澄清的问题。因此,本文将重点关注以下内容:基于经典机器学习(ML)模型和使用多层人工神经网络,特别是卷积神经网络(CNN)的深度学习(DL)模型的放射组学应用领域之间的差异;样本量计算的特定AI问题;有限且不平衡数据集的数据增强程序;数据整理;AI模型的可解释性(“黑箱”问题)。数据整理部分将包括关键的技术步骤,如图像标注、图像注释(其中分割是放射组学的关键步骤)、数据统一(能够补偿通常在非AI成像研究中产生噪声的成像协议差异)以及联邦学习。最后,结合一些结论性意见,我们将提供选择ML与DL的优缺点,以及对AI开发者和用户的一些建议和现有软件工具的参考,并向读者传达一些重要的关键信息。

2. AI应用的方法和架构

      在医学影像中开发AI应用可以实现两种不同的架构及其相关的典型工作流程(见图1):(i)经典机器学习,利用手工设计的特征,即从分割图像中提取的放射组学特征;(ii)深度学习,使用深度特征提取或端到端的图像学习。然而,ML和DL共享一些通用概念,如监督和训练,这些概念必须在考虑两种方法的具体方面之前加以澄清。

图片

图1. 预测建模的人工智能系统的典型架构和工作流程:a) 经典机器学习,涉及手工设计的特征处理步骤,如放射组学;b) 深度学习,考虑深度医学图像特征提取或端到端学习。

2.1. 监督学习与无监督学习

     在基于AI的分类系统中,最常见的学习过程是监督学习,其中分类模型的训练是通过向学习系统提供“带标签”的训练数据(与其对应的类别或感兴趣标签相关联的数据样本)来进行的。学习系统的任务是找到一个关系,将训练集的每个输入(数据)映射到一个输出(标签)。在医学中,输入数据可以包括医学影像或临床数据,而输出标签可以是疾病诊断、患者状况(例如,给定随访时间点的疾病阶段)、治疗后的结果(例如,复发、生存)。一旦这种关系被学习(即训练阶段),它就可以用于将未知标签的新输入数据分类到训练阶段定义的感兴趣类别之一。

     与监督学习相反,无监督学习中训练数据不与任何预先存在的类别或感兴趣的标签相关联,可能是因为缺乏这些信息。然后,学习系统接收一组训练数据,其任务是在给定特征下搜索可以将这些数据分成相似样本子集的未检测模式。一旦这些子集及其特征被检测和学习(训练阶段),新的输入数据就可以分类到在学习过程中隐式定义的感兴趣类别之一(即测试阶段)。

     本文综述中贯穿全篇给出了监督和无监督学习算法的相关示例。需要注意的是,还可以使用其他方法,例如半监督学习,其中只有部分训练数据是带标签的,这使得该方法成为监督学习和无监督学习的结合

2.2. 训练、验证与测试

      如前段所述,分类模型的实施至少涉及两个阶段,训练和测试。训练阶段是分类模型本身学习的阶段。在此阶段使用的数据称为训练数据,无论是使用监督方法还是无监督方法。为了获得具有泛化能力的模型,即在应用于新数据时表现良好,训练数据必须数量足够大,并且具有代表性,即代表系统将在其上进行测试并最终可能在临床视角中应用的人群 。

      测试阶段是使用或测试在训练阶段学习的模型的新样本的阶段。在此阶段使用的数据称为测试数据,模型在正确分类这些数据方面的性能称为测试性能。需要注意的是,训练数据中包含的任何样本在测试阶段都不能被使用,因为这将使测试性能失效。

      为了提高学习性能,并且当可用样本数量足够时,引入训练和测试阶段之间的第三个阶段,即验证阶段,是有用的。在此阶段,训练阶段学习的模型参数被调整和优化,以最大化给定的指标(例如其分类性能)。这些参数可能包括使用的变量数量或它们的相对权重。在此阶段使用的数据称为验证数据,模型在正确分类这些数据方面的性能称为验证性能。重要的是要注意,测试性能代表模型的最终性能,即展示学习模型在一般人群上工作的能力。

2.3. 经典机器学习模型

     根据图1a,基于经典机器学习技术的预测建模始于在图像分割过程中手动或(半)自动勾画感兴趣区域(ROIs)或感兴趣体积(VOIs)后,提取大规模的手工设计特征。这一新兴的研究领域,最近被称为“放射组学” ,涉及从医学影像中提取可挖掘的特征,以非侵入性地表征病变的体内表型,甚至仅仅是组织部分(例如,肿瘤周围表面看似正常的组织)的表型,通过形态测量(即大小、形状和直径)以及组织或功能纹理异质性的测量(包括一阶、二阶和更高阶的统计描述符)来捕捉ROI/VOI的特征。

2.4. 放射组学应用领域

      放射组学特征通常对医学影像采集参数不够稳健,例如空间分辨率(面内分辨率和层间分辨率,即切片厚度),以及图像提取设置(例如量化、重采样)。此外,放射组学特征可能依赖于用于提取它们的软件包。

     这些问题已由图像生物标志物标准化倡议(IBSI)解决,该倡议提供了放射组学特征的标准化定义、计算、归一化和命名法,还建议了放射组学工作流程中不同步骤的实施方法,包括以标准化单位的数据转换、采后图像处理、图像分割、数据插值、重新分割(即在ROI/VOI内仅涉及特定灰度值范围内像素的过程,以进行放射组学特征计算)和强度离散化。它们的描述不在本文综述的范围之内,因为它们大多数在IBSI指南中已被明确定义。一旦特征被计算和归一化,必须专门为放射组学领域设计特征选择过程,以定义稳健的成像生物标志物。为此,选择过程应执行:(i)消除不可靠的特征(例如通过类内相关系数);(ii)基于零和近零方差消除无信息的特征;以及(iii)消除冗余特征(例如高度相关的特征)。在这些预处理步骤之后,进一步的特征选择步骤旨在识别最相关的预测特征。

     重要的是,所有这些技术都可以处理“维度灾难”并减少模型过拟合,从而提高模型的泛化能力。特征选择方法可以细分为三类:

     (i)过滤方法,利用统计相关性或基于信息理论的指标来评估给定特征子集的有用性;

     (ii)包装方法,使用搜索算法(例如递归特征消除、顺序特征选择、元启发式算法)优化预测模型性能,评估特征组合;

     (iii)嵌入方法,允许将特征选择作为模型的一部分,例如最小绝对收缩和选择算子(LASSO)或弹性网络正则化方法(ElasticNet)。在这些方法中,包装方法功能强大但计算负担重。实际上,它们依赖于分类性能的评估以获得最佳特征子集:这种在特征空间中的搜索是一个非确定性多项式时间难题(NP-hard)。穷举搜索方法计算强度高,对于大规模数据集而言不可行,因此通常使用搜索方法和元启发式算法在搜索空间中找到次优解 。重要的是,由于多重统计比较,特征子集选择中准确性的重复估计可能导致特征子集空间中过拟合,从而阻碍泛化能力。

       在通过这些选择步骤获得一组可靠、非冗余和相关的特征子集后,仍需定义预测模型。这可以通过多变量分类或回归方法根据临床问题来实现,通常是在监督学习设置中。选择分类或回归方法取决于响应(目标)变量是分类的还是连续的。值得注意的是,当使用二元或多项逻辑模型时,回归分析可以用于分类任务。或者,可以使用无监督聚类技术来识别输入数据的内在属性和模式(例如,基于相似性指标的类别分组)。

       放射组学模型的验证是另一个关键阶段。尽管这一步骤的性能选择可能取决于可用数据量,但避免在模型训练和测试中使用相同的数据是基本的。理想情况下,应使用独立的数据集作为外部测试集。然而,这通常是不可能的,且常常必须利用单一队列进行模型开发和测试。为此,有几种可用的策略。

   一种可能的方法是保留法(hold-out approach),即将整个数据集分成一个训练集和一个测试集(通常为70%对30%或80%对20%)。这种划分可以是随机的,也可以基于某个标准(例如,时间或中心独立性)。

      其他方案,如交叉验证(CV)策略,也可以使用。留一交叉验证(Leave-one-out CV,获得高方差和低偏差)和k折交叉验证是最常用的方案。当可用于开发ML模型的数据非常少时,通常使用留一法,但由于其高变异性,基于单个观察的特性应避免使用。值得注意的是,k折交叉验证克服了留一法的限制,并比保留法更有效地利用了可用的数据集:数据集被分成k个互斥的、大小大致相等的折叠,允许更高的统计有效性 。所有k折的结果被平均,与保留策略相比,初始随机划分数据集的依赖性降低。

      使用嵌套k折方案(具有外部和内部CV循环)是允许独立于优化模型超参数进行模型训练的最严格方法。实际上,通过非嵌套k折方案选择超参数可能导致模型偏倚,提供过于乐观的性能,因为选择没有嵌套k折CV的模型意味着使用相同的数据来调整模型超参数和评估模型性能,可能导致训练数据过拟合和泛化能力差。

      重要的是,放射组学特征可以与额外的信息(例如,人口数据、风险因素、分子数据)整合,以提高模型的预测性能。这种整合对于手工设计的特征来说最为容易,因为补充数据可以作为附加特征添加到ML模型中。特别是,多模态成像和多组学数据可以添加到模型中,以更好地表征所分析图像区域的潜在病理生理。最近提出了一种放射组学质量评分(Radiomics Quality Score),用于衡量基于放射组学的AI模型的质量,考虑放射组学工作流程中发生的不同步骤。尽管其有效性尚未达成共识,但它可以有用地指导开发者和用户验证不同特征和测试的完整性,以提供有效的AI模型。

2.5. 深度学习模型

      深度学习(DL)模型(见图1b)提供了自动提取影像特征以最大化模型在相关任务中的性能的机会。深度学习是机器学习(ML)的一个特定子领域,采用人工神经网络,允许直接处理原始数据。事实上,深度神经网络通过执行设计经典ML模型时通常涉及的所有处理步骤,包括特征提取和学习,从而实现端到端的预测模型开发(参见图1a)。

      深度神经网络是由一堆具有有限数量非线性单元(即人工神经元)的处理层组成的表征学习算法。网络的第一层和最后一层分别定义为输入层和输出层,而它们之间堆叠的所有层称为隐藏层。深度神经网络的多层结构使其能够作为非线性函数逼近器,在多个抽象层次上学习输入数据的不同表征。根据层数和每层的单元数,DL模型在训练过程中需要估计的可训练参数数量可能轻松达到数百万。因此,DL模型容易过拟合,尤其是在处理相对较小的训练集时,最适合应用于至少包含数千张图像的数据集。

      由于其在大型数据集内建模非常复杂关系的能力,深度学习在医学影像和放射肿瘤学中得到了广泛应用,在医学影像领域的具体应用包括处理大规模和小规模图像数据集,尽管其影响不同。

     在不同的神经网络架构中,卷积神经网络(CNNs)是医学影像处理任务中最常用的。这些网络的特点是在神经元层之间存在卷积层,通过给定的卷积核函数对输入图像进行卷积。在CNN中,可以根据应用目的实现不同的卷积层,因为在训练过程中学习到的卷积层权重可以提取针对所研究任务量身定制的影像特征。与全连接神经网络相比,CNN中相同的卷积核参数应用于整个图像,从而减少了可训练参数的总数,使训练过程更加高效。根据输入和输出数据的维度,可以使用一维、二维或三维卷积核。

      池化层是CNN架构的另一个关键组成部分:它们通过减少特征图分辨率,引入对轻微图像扭曲的平移不变性。此外,卷积层和池化层的结合允许学习特征模式之间的空间层次结构 。

      线性(卷积)和非线性(激活)处理层的堆叠作为特征提取器,逐层增加抽象、不可变性和判别能力。在此处理之后,这些特征通过一系列全连接层或其他经典ML算法进行组合,以执行学习任务(见图1b)。

     卷积、池化和激活层并不是CNN架构中唯一可能的组件。由于CNN的模块化结构,已经提出了多种将CNN与其他类型神经网络结合的架构。端到端的CNN架构直接将图像映射到目标类别,已被用于执行筛查和诊断目的的图像分类任务。特别是,最初在大型自然图像数据集(如ImageNet)上训练的多个CNN架构,已通过微调预训练层以解决数据稀缺问题,被用于医学图像分类。自2015年引入以来,U-Net架构仍然是医学图像分割中最常用的CNN架构之一。基础U-Net架构由对称的编码器和解码器路径组成,通过跳跃连接连接。最初用于处理二维图像,它已被修改以从三维图像中获得体素级分割。然后,为了进一步提高网络性能,通过添加残差、注意力或DenseNet块来训练更深的网络、选择显著特征和解决梯度消失问题,分别开发了该网络的多个变体 。上述架构仅是可用架构广泛范围的简要介绍:CNN架构的详细分类不在本文综述的范围之内,但可以在Khan等人的最新综述中找到。

     循环神经网络(RNNs)也已与CNNs结合,用于从影像数据序列中提取时空特征。这些网络允许处理新的数据(例如,任意大小的图像序列),同时通过跨时间共享节点权重来感知先前的输入和输出。然而,模型复杂性与输入数据的大小成正比,使得RNNs难以训练且容易过拟合。为了解决梯度消失/爆炸问题并允许记忆长期信息,引入了门控循环单元和长短期记忆(LSTM)单元。

      自编码器在无监督DL架构中也扮演着关键角色,以无监督的方式学习如何重现输入数据。在这些网络中,编码器路径中逐渐变小的隐藏层、正则化和稀疏性约束,允许学习数据的低维表示,从而防止网络学习恒等变换(即平凡解)。最近,生成对抗网络(GANs)由于其建模数据分布和生成逼真数据集的能力,被广泛用于医学图像处理。GANs涉及两个对抗网络的互动,其中一个网络通过从训练样本中学习数据分布生成新的逼真数据,另一个网络则区分假数据和真实数据。这些对抗网络的互动提高了GAN的整体性能并生成逼真的图像数据(即对抗训练框架)。尽管其设计具有创新性,这些网络通常由于梯度消失/爆炸问题而难以训练,并且容易生成具有相似外观的新数据(即模型崩溃)。

      在选择合适的网络架构之后,超参数调优是一个复杂的步骤。设计正确的架构具有挑战性,因为多个结构性超参数,如层数/神经元单元数、感受野大小(特定CNN特征所关注的输入空间区域)和激活函数,可能会强烈影响模型性能。

      在学习过程中,网络参数被优化以解决特定任务。为此,误差的反向传播算法调整网络参数以最小化代表网络成本函数的损失函数。调整基于损失函数相对于网络参数的梯度变化。为了改进这一过程,已经提出了多种优化器。除了随机梯度下降,大多数优化器采用自适应学习率,以改善复杂优化问题中全局最小值的检测。此外,输入图像归一化以及使用批量归一化层标准化自动提取的深层特征,已被证明有助于训练收敛并防止协变量偏移。

      网络的深度应随所研究任务的复杂性而增加。然而,非常深的神经网络容易出现梯度消失/爆炸问题,这一问题实际上阻止了权重在训练过程中改变值,分别可能导致训练时间非常长或无法收敛。使用修正线性单元(ReLU)激活函数、适当的初始化技术和跳跃连接可以部分缓解这一问题。由于模型复杂性的过度增加也可能导致过拟合,因此可以使用多种正则化技术来提高模型的泛化能力,如L1和L2正则化、批量归一化、Dropout、早停和数据增强技术。这些技术可以结合使用,以利用不同方法的互补效果,详见关于最常采用的正则化技术及其对DL模型性能影响的综合概述。

      关于设计选择,“无免费午餐”理论表明,每个模型需要特定的超参数设置,以最大化其在特定任务中的性能。因此,超参数调优是一个绝对必要但具有挑战性和耗时的步骤,需要持续评估模型在训练和验证数据集上的预测误差,以找到过拟合和欠拟合之间的可接受折衷。为了找到最佳的超参数集,可以使用多种方法。传统方法从穷举到随机和多步骤的超参数搜索,而最近提出的方法包括自动超参数优化算法,减少了超参数调优对模型设计过程的负担。在这种情况下,强化学习和元启发式算法 是对试错方法的有前景的替代方案。尽管如此,DL模型性能的评估必须强制在测试集上进行,这代表了唯一能够确保模型泛化能力的独立和外部数据集。

2.6. 医学影像应用领域的深度学习

     在医学影像中训练和评估深度神经网络可能比使用ML进行放射组学分析更具挑战性,主要是因为通常缺乏足够数量的标注良好的医学影像数据。为了解决这一问题,可以使用图像增强和迁移学习技术。在这方面,GANs可以用来生成合成的额外训练实例。

      或者,深度迁移学习技术(Deep Transfer Learning),其放宽了训练和测试数据来自相同概率分布的假设,允许避免从头开始训练DL模型。深度迁移学习技术已被分类为四类:基于实例的、基于映射的、基于网络的和基于对抗的,如Tan等人所详述 。

      解决缺乏适当标注数据的另一种方法是使用半监督或弱监督方法。在完全监督学习中,带标签的实例用于训练、验证和测试DL模型,而弱监督方法允许利用部分标注或弱标注的数据。这些策略包括使用部分标注的数据集(不完全监督)、粗粒度标注的数据集(不精确监督)以及不仅包含真实标签的数据集(不准确监督)。最后,DL研究中的最新进展强调了自监督或无监督预训练策略的潜力:在自监督方法中,标签是从数据中自动检索的,而在无监督方法中,影像特征是在没有标签的情况下提取的。

      对于DL和ML来说,在日益增长的个性化和精准医疗框架中,另一个重要挑战是将不同数据模态的特征整合到单一模型中。当影像和临床数据必须与其他组学数据整合到单一DL模型中时,这一问题尤为重要。在这方面,Li等人发表的综述文章提供了可用整合策略的全面调查,从ML开始,也涵盖了多模态DL整合策略。

     除了用于数据增强和迁移学习的对抗学习应用之外,对抗攻击也值得一提。通过对医疗影像样本施加小的修改,生成对抗样本,这些修改接近分类器学习到的决策边界,可能影响基于DL的计算机辅助诊断系统,以及基于放射组学的模型。事实上,对像素数据进行的小幅更改可能适当地改变某些放射组学特征的值,从而影响下游分析。在必须在临床实践中使用的可靠计算机辅助诊断系统中,这一问题不可忽视。

     考虑到AI聚焦的医学影像文献的不断扩展,最近提出了一份用于开发可靠的医学影像分析DL模型的指南(医学影像中的人工智能检查表,CLAIM),包括关于AI模型泛化能力和可重复性的建议。

3.1. 样本量

      在肿瘤影像的典型AI分类任务中,AI模型旨在使用影像生物标志物或可能与病变特征相关的放射组学特征来区分良性与恶性病变。在这种情况下,恶性病变的分布预计与良性病变的分布不同,通常通过p值来证明这一点。

      AI应用通常涉及数百甚至数千个统计假设检验。这大大增加了假发现的概率,即导致统计显著p值(历史上设定为<0.05)的关联/相关性实际上并不真实。例如,如果在α(I型)错误率为0.05的情况下进行一千次统计检验,平均会出现50个假发现。为减轻这种现象,可以在这些特殊情况下采用更低的显著性阈值。假发现率与样本量密切相关:样本量越大,假发现率越低,反之亦然。因此,样本量是AI模型性能的主要决定因素:训练集和测试集的样本量过小会导致偏倚,并增加模型性能的方差。

      在经典统计学中,针对多种可能的情境(研究设计、结果、零假设等)的样本量确定方法已得到充分建立,这些方法基本围绕以下公式构建:

图片

    该公式根据期望的误差率(E)和方差(σ)提供了所需的样本量nnn;Z是给定置信水平下的 Z 分布值。然而,上述公式并未考虑 AI 建模的任何特殊特性。事实上,AI 应用中所需样本量的计算方法仍不明确,许多研究人员仅遵循 Widrow-Hoff 学习规则,这是一种多变量分析的经验规则,建议每个将在模型中使用的影像特征对应十个数据(患者)。然而,根据具体情况,这一规则可能会导致样本量过小或过大。

      最近,Balki 等人在一项系统综述中评估了医学影像领域样本量计算的更多分析方法,将不同方法分类为基于模型的方法(即基于算法特性)和曲线拟合方法(即在选定样本量下经验性评估模型性能)。基于模型的方法建立在训练样本和测试样本来自同一分布的假设之上。Baum 和 Haussler 对于具有 k 个单元和 d 个权重的单隐藏层前馈神经网络提出了一种方法。该方法预测,对于分类误差 ε(0 < ε < 1/8),在 m 个样本上训练的网络,其中 1-ε/2 的样本被正确分类,在未见过的测试集上,其分类准确率将接近 1-ε,条件是 m ≥ O(d/ε·log₂(k/ε))。Haykin 提出的另一种基于模型的方法认为,当满足条件 m = O((d + k)/ε) 时,泛化是有效的。该方法类似于 Widrow-Hoff 规则,实际上 m ≈ d/ε 。

      学习曲线拟合方法旨在使用反比例幂函数来模拟训练集大小与分类准确率之间的关系。Fukunaga和Hayes[提出通过性能测试程序经验性地获取接收者操作特征曲线下的面积,并将其与各自的1/Ntrain(Ntrain = 训练图像数量)进行绘图:当Ntrain趋向无穷大时,通过线性回归来推断更大样本量下的性能。尽管这些伪方法提供了事后的样本量估计,但经验方法的优势在于能够准确地为特定任务建模性能,避免了对分布的假设。

      另一种有前景的方法基于 Vapnik–Chervonenkis(VC)维度,简单地估计分类AI算法的能力。通过该方法估计的样本量基于以下公式:

     该公式为算法在训练误差(ETraining)下生成的测试误差(ETest)提供了一个概率上的上界;其中,D 是算法的 VC 维度,N 是样本量,且 0 ≤ η ≤ 1。对于预设的测试误差和已知的训练误差,可以通过求解上述公式得到样本量 N。当然,所需的测试误差越低,N 越大。

     为了探索AI系统的性能,评估其与随机机会的统计差异,并排除假发现的存在,建议在学习和分类过程结束时应用置换检验(即使用随机置换的黄金标准标签而非原始真实标签来训练、验证和测试AI系统)。这在以下情况下尤为有用:

     1.训练/测试数据集的大小不高;

    2.训练和/或测试子集不代表总体;

     3.AI模型的训练受到训练/测试数据集中混杂/噪声变量的严重影响。

      在所有这些情况下,结果AI系统的性能可能比预期的更高。

3.2. 数据增强

      数据增强是解决小数据集问题的数据空间解决方案。可以实现多种增强训练数据集大小和多样性的技术,主要分为两大类:数据变换和过采样。

      数据变换通过保留标签来转换原始图像。典型的变换包括几何和颜色变换、裁剪、噪声注入、滤波,以及通过平均像素值混合图像或基于蒙特卡洛模拟投影生成图像。数据过采样在特征空间中创建合成实例(见第3.3节)。

     另一种完全不同的数据增强解决方案是对抗训练,即使用两个或多个网络,其损失函数中编码了相互对立的目标。Li 等人进行了对抗训练实验,发现对抗实例丰富后的原始测试数据上模型性能有所提升。遵循类似的原理,上述的 GANs从数据集中创建人工实例,使其保留与原始集合相似的特征。GANs 在医学影像中的应用已在 Yi 等人的调查中得到充分记录,并在进一步发表的研究中应用于计算机断层扫描(CT) 、磁共振成像(MRI) 和 X 射线图像。使用基于 GAN 的数据增强,报告了分类性能提高 4–8%。然而,数据变换、过采样和对抗训练也可以结合使用,因为它们并不相互排斥:传统的手工数据变换技术可以与 GANs 结合使用。

      目前仍未就为了改进 AI 模型而最终增强的数据集大小达成共识。过度增强的数据可能导致 AI 模型过拟合,甚至比增强前更严重。因此,一个好的方法是在逐步增强过程中监测过拟合,并根据最大训练准确率和最小损失定义数据增强的最大水平。

3.3. AI应用中的不平衡学习

      在与数据量相关的生物医学 AI 应用中,另一个非常常见的问题是数据分布在不同类别之间存在较大的样本量差异。这一问题通常是由于某些类别的出现率较低。在开发 AI 应用时,这一问题被称为不平衡学习。

3.3.1. 数据重采样

      不同的数据重采样方法可以用来缓解这一问题,即欠采样和过采样方法。两种类型的方法都通过调整训练数据集的大小以实现更平衡的类别分布,使其与其他类别的大小相匹配:在欠采样中,从多数类中抽取一个子集实例,而过采样则生成人工样本以补充少数类。在多类别框架下的不平衡学习中,通常会在类别之间成对应用欠采样和过采样。

      当每个类别的样本数量导致欠采样方法被舍弃时,可以使用以下流行的过采样方法。

      合成少数类过采样技术(SMOTE)是从不平衡数据中学习的标准基准:在特征空间中沿着连接任何或所有k个少数类最近邻的线段随机选择(例如k=2)创建的合成样本 。合成样本的生成步骤包括:

      1.计算正在考虑的特征向量与其最近邻之间的差异;

      2.将该差异乘以[0, 1]区间内的一个随机数;

      3.将此量添加到正在考虑的特征向量上。

      这相当于在两个特定特征之间的线段上选择一个随机点。值得注意的是,这种方法在多个领域中取得了成功,还启发了其他方法来对抗类别不平衡,并显著促进了新的半监督学习范式,如多标签分类和增量学习。

      边界SMOTE基于原始SMOTE实现,但并不是从所有少数类样本生成新样本,而是首先选择所有边界少数类样本,并在考虑这一选择的基础上随后生成合成样本。对于少数类中的每个样本,边界SMOTE计算来自整个训练集的m个最近邻,并确定这些最近邻中多数类样本的数量。如果其多数最近邻的数量超过少数类的数量,则该样本被认为易于被误分类,并被放入称为“危险”集的集合中。否则,它被认为是安全的或是噪声,因此退出过采样过程。危险集中的少数类样本代表少数类的边界数据,最终通过应用SMOTE算法生成合成样本。这是第一种实现方式,称为边界SMOTE1,而第二种实现方式(边界SMOTE2)不仅从少数类的最近邻中生成合成样本,还从其最近的多数类邻居生成样本。

      自适应合成采样方法(ADASYN)是SMOTE的另一种改进,主要根据不同少数类样本的学习难度水平使用加权分布,如Haibo等人所描述。在ADASYN中,相对于易于学习的少数类样本,更难学习的少数类样本生成更多的合成数据。因此,ADASYN减少了类别不平衡引入的偏差,并将分类决策边界向困难样本移动 。

3.3.2. 集成学习

      这种方法使用多个学习器的集成,每个组成分类器(Ci)在多数类的一个子集和少数类的一个子集上进行训练,但仍然考虑少数类样本的很大一部分。然后,所有Ci对测试样本所做的决策根据给定规则(如多数投票)进行组合以获得最终输出。集成学习的原理在于观察到分类器集成通常比单个模型表现更好,尤其是在泛化方面。此外,基础分类器Ci现在在比原始问题更平衡的子问题上进行训练,还具有包含代表原始集合不同方面的样本的期望属性。可以描述三种流行的方法。

       平衡袋装分类器在不同随机选择的数据子集上构建多个学习器,通过对多数类进行欠采样,使每个数据子集中的样本数量与少数类的样本数量匹配。

       随机森林的变体是原始随机森林方法的一个变种,它从平衡和下采样的数据中诱导出一组树的集成。首先,对于随机森林中的每次迭代,从少数类中抽取一个自助样本,并随机地从多数类中有放回地抽取相同数量的样本。其次,从这些数据开始分类和回归树(CARTs)的分类过程,直到达到最大大小,不进行剪枝。在每个节点,不是搜索所有变量以寻找最佳分裂,而是考虑随机选择的一部分变量。第三,重复前两个步骤,训练完成后,通过对每棵树的决策进行多数投票来获得最终决策。

      XGBoost是一种优化的、可扩展的、可移植的和分布式的梯度提升实现,其中树的集成是CART。源自梯度提升的正则化目标化方法,这种方法最近因其被多个团队用来赢得机器学习竞赛而获得了极大的人气。与决策树相比,CART中的叶节点存储的是实值评分而不是二元决策值。这样,可以获得更丰富的解释。

4. 数据整理

      尽管存在差异,机器学习(ML)和深度学习(DL)面临着若干共同的挑战。如前所述,数据收集和整理是数据驱动模型开发的基本步骤。特别是在医学影像的情况下,“垃圾进,垃圾出”原则依然有效:提供给任何处理算法的图像池的质量决定了结果的可靠性,即使对于AI应用也是如此。用于推断新知识的图像的质量检查是一个特别关键的点,考虑到AI应用需要在大样本量(高数据量)的基础上工作,而医学图像通常是在多中心研究中获取的(由于不同设备、成像和临床协议等导致的数据异质性高)。

      假设AI只需要输入随机收集并大规模组合的数据可能会严重适得其反。错误的数据集可能以多种形式出现,从事实上的不正确信息到知识缺口、不正确的结论,最终到错误的临床指示:未经整理的数据集可能存在偏见、不准确、不可靠、部分代表、充满错误或模棱两可的情况。使用未经整理的原始数据集“被发现会降低在迁移任务上评估的特征质量”。

4.1. 数据标注和注释

      数据标注旨在确保数据集适用于模型目标。例如,一个基于医学图像开发的AI模型,旨在预测不同的预后结果,将需要将数据标注为预后良好或预后差的图像。此步骤将图像与真实信息关联起来,并意味着需要从针刺活检或手术标本的组织病理学、实验室结果、患者的临床记录甚至患者的随访中收集知识。这些知识也可以作为其他任务的真实基础,例如用于自动一级筛查阅读的AI应用(如筛查乳腺摄影),当AI工具提供即时的二分类为阴性病例或召回病例时,前者将被送往下一个筛查轮次,后者将被召回以评估可疑病变。

     一般来说,图像可以通过不同的方式进行标注,包括结构化标签、图像注释和图像分割。虽然按照各种指南建议的诊断影像的结构化报告将大大减少提取标签所需的工作量,但大多数临床报告仍然由自由文本组成。因此,大多数希望使用回顾性数据的中心不得不处理与叙述性报告相关的大量医学图像,其分析需要巨大的努力。尽管DL本身已被提议用于将自由文本翻译为结构化报告,例如在CT肺动脉造影中,回顾性基于报告的图像标注通常是手动完成的。

      例如,放射学诊断的图像注释可以通过使用分配给病变的放射学报告类别来完成,如乳腺影像报告和数据系统(BI-RADS)或前列腺影像报告和数据系统(PI-RADS)定义的类别。当告知算法病变或其他特定组织区域的位置时,图像注释也是必需的。

     过去,科学家团队曾被雇佣来执行数据标注和注释,包括图像分割。在竞赛期间,组织者会提供由共识标注的数据供参与者使用,例如在Crowds Cure Cancer项目中 ,数百名参加2017年和2018年北美放射学会会议的参与者参与了癌症影像档案库(https://www.cancerimagingarchive.net/)的图像标注任务。

      AI应用中另一个最常被低估的基本方面是图像分割。虽然DL方法并不总是需要预先识别ROI或VOI以提取用于模型训练的影像特征,但对于放射组学而言,此步骤是强制性的:区域/体积的定义越准确,进入ML模型的定量特征越能反映病变或组织的生物学特性。

      多年来对图像分割算法的研究强调了在使用来自不同成像模态和技术的手工设计影像特征时需要考虑的方面,无论是否使用对比剂或放射性药物。图像分割方法受所考虑的病变和图像特性的影响,尤其是在混合和多模态成像的情况下。

      由于ROI或VOI的定义定量地影响放射组学特征 ,不同分割方法获得的放射组学分析结果可能有很大差异。迄今为止,放射组学研究中尚未就图像分割应使用的具体方法达成共识。IBSI标准化倡议提出了一个良好的折衷方案,建议使用半自动算法,包括使用全自动方法后由操作员进行手动调整,加快了过程速度,同时仍允许人工修正。值得注意的是,这对放射组学特征的稳定性有影响:不同的分割/调整方法以及不同的操作员可能导致计算出的放射组学特征出现变化。

     对抗特征不稳定性的策略是通过应用不同的分割方法或让不同的操作员对图像进行分割,在重复(测试-重测)研究中选择统计上稳定的放射组学特征,无论是在患者还是在仿真人体模型上。另一种策略是对单个操作员提供的分割ROI/VOI应用适度的随机变化。此过程生成不同的分割结果,就好像它们是由不同的分割方法或操作员获得的一样,而无需其他注释员或开发和实施替代分割方法的需要。

      图像分割在用于图像分类和目标检测的DL模型中是必需的。可以使用各种图像注释技术,借助ML算法提供边界框、多边形注释、立方体注释和围绕图像中目标的轮廓。这一过程被称为语义分割,可以实现对与疾病相关的目标对象的深入检测,在单一类和单一过程中进行分割。

4.2. 数据协调

     即使仅考虑单一成像模态,医学图像也可能使用不同的扫描仪获取,或者使用相同的扫描仪但采用不同的临床协议和/或采集/重建技术参数。这导致动态对比增强研究中空间分辨率、对比噪声比和时间分辨率的可变性。这些变化对放射组学分析稳健性的影响已经有报道。Meyer 等人表明,考虑不同的图像重建设置和辐射剂量后,从 CT 图像中提取的超过 80% 的放射组学特征被发现不可重复。同样,虚拟模型 和临床研究 证明,来自正电子发射断层扫描(PET)的放射组学特征受到重建设置的强烈影响,而磁场强度、扫描仪类型和采集参数对 MRI 研究也有类似的影响。采用深度学习(DL)的研究似乎受此问题的限制较小,但我们仍远未清楚这是特征提取技术的影响,还是如前所述,由于生物医学数据稳健性和可重复性增强的固有较大样本量的影响。最近,已经开发了数据协调技术来补偿上述变化:这些方法在从不同系统获取的相同特征的统计分布上进行归一化,同时保留图像的信息内容。

4.3. 图像强度归一化、去噪和伪影校正

      另一个可能对放射组学和深度学习(DL)方法中的图像分析算法产生不可忽视影响的问题涉及使用任意单位来测量信号,通常见于 MRI。事实上,PET 和 CT 图像具有基于明确定义的物理过程的测量单位,因此信号具有可量化的生理意义:根据商定的标准进行校准后,信号中的统计显著变化可以解释为真实变化。相反,MRI 提供的图像信号以任意单位表示,这妨碍了不仅在群体研究中,而且在同一受试者的纵向研究中对图像的比较。该一般范式的有趣例外包括来自扩散加权序列的表观扩散系数(ADC)图、T1 和 T2 映射以及 MRI 指纹识别。因此,在 MRI 中,在从图像中提取用于 AI 应用的定量生物标志物之前,需要进行去噪和强度归一化程序。已经描述了不同的归一化方法:将整个成像值缩放和平移到固定强度范围;归一化到整个图像的均值和标准差 ;归一化到生物学上可比的参考组织区域;以及将成像直方图调整到参考直方图。即使没有得出明确的结论,几项研究已显示这些多参数 MRI 图像校正如何通过提高 AI 应用的性能来影响放射组学特征的价值。

      除了图像强度归一化外,MRI 图像还可以进行去噪和伪影校正。已经提出了广泛的去噪方法:双边滤波方法;非局部均值滤波方法;块匹配;以及三维滤波方法 或全局滤波器。偏场校正(BFC)指的是补偿磁场不均匀性的校正,例如,目前大多数放射组学研究中用于执行 BFC 的 N4ITK 算法。然而,尚无大型研究专门探讨这种校正对 AI 性能的影响。

      即使是提供定量参数的图像,如 PET 标准摄取值(SUV)单位或 MRI ADC 图,通常也会受到广泛的物理效应的影响,产生可能的伪影。这对于 ADC 图来说是一个相关问题,使这一“例外”仅是相对的。在这些情况下,放射组学或 DL 研究将受益于影响整个图像的校正方法,例如在图像重建过程中补偿物理效应的方法。正如 Litjens 等人所指出的,图像处理算法如强度归一化和去噪在 DL 算法的背景下尚未被广泛使用,可能是由于 DL 研究中使用的大量图像起到了补偿因素的作用。然而,一些研究表明,这些校正可能有助于提高 DL 模型的性能,我们预计它们的使用将在未来增加。

   

4.4. 联邦学习的适用性

      除了仔细的数据标注和协调外,联邦学习的潜在适用性也值得讨论。事实上,大规模的数据收集不仅由于在不同机构之间交换大量数据集而引入物流问题,多中心和国际的 AI 驱动研究还必须处理有关患者数据交换的伦理和法律方面的严格和严谨的规定。实际上,在医学影像中,扫描的存储和传输由医学数字成像和通信(DICOM)标准促进。传统的训练 AI 模型的方法涉及建立服务器,在这些服务器上训练模型,通常使用基于云的计算平台。然而,已经出现了一种替代的模型创建方式,称为联邦学习,它将机器学习(ML)带到数据源,而不是将数据带到模型。

      在联邦学习中,训练好的共识模型通过利用不同机构收集的数据开发,无需共享数据并维护患者隐私。通过实施分散的数据模型并通过聚合服务器或点对点系统执行计算,这种方法为开发和评估目的提供了对大型、异质且经过整理的多中心数据集的受控和安全访问。然而,联邦学习的潜力需要参与者在模型开发过程的每个步骤(从患者招募到模型评估)中确保高标准化和可靠性,特别是在模型泛化性方面。关于联邦学习基础设施的实现,每个合作伙伴必须在硬件、软件和网络带宽方面确保有价值的高性能计算(HPC)资源。作为一个良性副作用,这一需求可能导致医疗环境中 HPC 资源的实质性增强。

5. AI应用的可解释性

      如前所述,AI 应用于医学图像在学习、自动分类和预测的新技术实施以及在各个领域获得的内在性能方面表现出持续的改进。然而,技术和开发模型复杂性的增加对应于理解其底层学习和分类过程的难度增加。这种行为的典型例子(图 2)可以在从 ML 技术到 DL 架构的转化中看到。

图片

图2. 人工智能系统的学习性能和可解释性作为模型复杂性的函数。

     最近,使 AI 推理对人类读者透明和易懂的需求强烈出现,目的是观察、研究和理解输入如何在数学上映射到输出 [149],[150],并澄清 AI 系统内部机制中的模式。能够描述其行为——或 AI 控制实体行为——的 AI 系统被称为可解释 AI(XAI),这一术语最早由 Van Lent 等人于 2004 年在仿真游戏应用中引入 [151]。术语“可解释性”也可以表达为“可理解性” [152]、“可理解性” [153]、“智能性” [154] 或“可解释性” [149]:然而,从这些定义可以清楚地看出,XAI 系统的开发绝不应以任何方式影响模型的分类/预测性能,而只应影响其可解释性,如图 3 所示。

图片

图3. 人工智能(AI)与可解释人工智能(XAI)在可解释性方面的学习性能。

      XAI 的需求在那些需要高透明度的领域尤为突出,如生物医学领域,在这些领域中,如果提议使用 AI 系统来支持临床医生和患者的决策,AI 系统在决策中的可靠性应得到强有力的文档支持。其他重要问题涉及放射组学特征的临床解释以及对发现的基于放射组学的生物标志物进行生物学验证的需求 。鉴于可用的 ML 和 DL 算法的数量和异质性,目前尚无共识或标准策略来实施 XAI,尽管最近已经提出了一些潜在的框架。XAI 策略可以根据它们应用的学习阶段进行分组,因此根据它们揭示的信息(可解释的输出)。考虑到以下阶段:特征减少(特征提取和选择);学习过程(训练和预测);以及特征减少与学习过程的组合。

      关于特征减少,特征提取和选择技术通常包含在 ML 系统中。报告这一中间阶段的输出是使系统内部机制更易理解的一种方式。当输出由一组按重要性排序的提取/选择特征组成,用作训练和预测的输入时,排名最高的特征可以根据给定指标解释为输入数据中最具代表性的特征。然而,这可能与特定的预测任务无关,因此缺乏信息性。例如,大多数论文报告从输入数据集中提取的主成分,代表输入数据集中方差最大的特征,与群体区分无关。其他特征提取技术,如独立成分分析,也存在类似的问题。相反,诸如偏最小二乘分析或单变量/多变量技术(如 Fisher 判别比率或相关分析)的特征提取技术,可以考虑群体区分的信息。此外,必须注意的是,一些特征提取技术不会返回提取特征的排名列表,因此,应采用不同的可解释性策略,如下所述。然后,这一阶段的输出可以作为输入数据集最具代表性的特征列表返回(特别有用,如果输入数据集由非图像变量组成)或映射到原始输入空间(特别有用,如果输入数据集由图像组成)。这些技术易于实现,但其可解释性水平较低,仅限于特征提取/选择阶段,因此无法解释随后的训练和预测过程。

      关于学习过程,训练和预测代表了 ML 系统的核心。为了使这一阶段对人类可解释,实施的技术通常根据每个输入特征在训练和分类过程中的重要性生成一个分数。在这种情况下,生成的特征重要性是针对特定 AI 分类/预测任务的。例如,随机森林应用一种内部优化技术,最小化或最大化给定指标(如基尼不纯度或信息增益/熵),从而根据每个特征在这一优化过程中的贡献返回一个重要性分数。对决策树也可以做出类似的考虑。对于基于线性或逻辑回归的分类器,包括 ElasticNet 或 LASSO,重要性分数由在拟合所考虑的分布过程中找到的每个输入变量的系数表示。在支持向量机(SVM)中,SVM 分类器分配给每个训练样本的权重可以被反投影到原始特征空间,从而产生一个表示每个特征在 SVM 分类中的重要性的分数 。然而,这最后一种技术只能在使用线性核时实现。在这一第二阶段,输出也可以作为按重要性排名的特征列表返回,用于分类/预测,或映射到原始输入空间,例如通过热图突出显示。这些技术的实施难度为低至中等,其可解释性水平仅限于训练和预测阶段,无法解释特征提取/选择过程。

      最后,较新的方法旨在整体上解释 AI 系统的行为,考虑到 ML 和 DL 技术。与 ML 相比,特征提取/选择和训练/预测嵌入在更广泛的过程中,例如优化过程。这个过程可以通过改变输入到系统的特征数量来迭代,以优化给定指标(例如,分类曲线下面积)。因此,可以根据优化指标的相应值为每个特征分配一个重要性分数。因此,这种技术可以独立于选择的特征提取/选择/分类技术使用,将 AI 系统转变为 XAI 系统。例如,递归 SVM 可以包含在此类别中,因为它们使用迭代过程根据整个 AI 系统性能为每个输入特征分配重要性分数 。

      由于深度架构涵盖了整个学习流程,从特征提取到分类,DL 算法也可以从 XAI 中受益,考虑到 DL 架构中层数众多,这增加了人类理解的难度。针对 DL 的 XAI 策略试图揭示图像分解在不同深度的工作方式,并将这些信息映射到显著性/激活图中,显示给定图像的哪些特征对决策贡献最大。这些技术中最流行的是类激活图,其中图是作为最后卷积层中像素级激活的函数生成的,按激活对给定类别最终分数的贡献进行加权。CAM 可以为任何输出类别生成,从而即使与错误分类相关,也能返回可解释的信息。另一种针对 DL 系统的 XAI 策略由 Hendricks 等人提出:作者训练了一个 CNN 来识别图像中的对象,并实现了一个生成语言的递归神经网络,将 CNN 的特征重要性翻译成词语和标题。

      提高模型可解释性是人工智能模型开发中的一个开放性挑战,旨在保证其向临床领域的转化能力。然而,我们注意到,解释整个人工智能系统行为的可解释人工智能(XAI)技术在实施上存在较高难度,并可能带来高昂的计算成本,特别是对于包装策略而言。图4展示了医学领域中可能的人工智能任务的两个代表性示例,以及相应的人工智能与可解释人工智能输出的对比。

图片

图4. 医学中人工智能(AI)任务的代表性例子及相应的AI与可解释人工智能(XAI)输出。

6. 设计选择:机器学习(ML)与深度学习(DL)

      然而,没有“一刀切”的解决方案可以开发出可靠的AI工具。根据可用数据的质量和数量、标签和注释的存在与可靠性,以及所需的可解释性水平,AI开发者可以采取不同的策略。

      图5展示了在AI模型开发过程中必须做出的主要决策,涉及以下方面:

      1.定义可用数据集的样本量;

     2.评估是否可以将先前的应用领域适应于当前所考虑的问题;

      3.评估标签和注释的可靠性;

       4.提供模型结果的可解释性,考虑模型逻辑/行为和结果解释。

      这些选择在表1中得到了更好的结构化,表1比较了经典机器学习(ML)和深度学习(DL)方法,并建议了针对ML和DL应用中最重要挑战的最佳解决方案。然而,一些商业和开放获取的软件工具已经提供了多种功能,并为在医学影像中有效开发AI模型提供了经过验证的解决方案,而无需特定的AI和编码技能。根据这些软件工具对本综述中突出问题的解决方案分类,可以在补充材料中找到。

图片

图5. 人工智能模型开发中的设计选择流程图。每个决策块表示典型的实际情况,这些情况导致经典机器学习和深度学习模型中不同的解决方案。

表1. 根据决策选择经典机器学习和深度学习模型的挑战

图片

7. 结语

     在本综述中,我们描述了使用AI的优缺点之间的平衡,特别是区分了机器学习(ML)及其在放射组学中的独特应用与深度学习(DL)。这些知识是连接数据科学家(开发者)与临床用户(医生)的桥梁,帮助他们选择最佳解决方案以实施特定的AI应用,包括特殊的高级研究和即时的临床需求。表2中展示了一些ML和DL的优缺点,这些优缺点既包括每种技术的特有方面,也包括两者共有的方面。四个主题值得最后强调。

表2. 针对医学影像应用选择机器学习或深度学习的优缺点及建议。

图片

ML = 机器学习(machine learning);DL = 深度学习(deep learning);IBSI = 图像生物标志物标准化倡议(Image Biomarker Standardization Initiative);SVM = 支持向量机(support vector machines)。

     从一般的角度来看,集成学习在多种情况下都可能有用,而 Vapnik–Chervonenkis 方法可以帮助定义样本量。

    第一,当样本量较小时,当预测类别是以连续变量表达的标签,或者当模型需要将附加数据(例如风险因素或生物数据)整合到影像特征中时,应优先选择在放射组学领域工作的 ML 算法,这与 IBSI 指南一致。在这种情况下,应进行稳健可靠的特征选择、协调和去噪,以及嵌套或封装的验证方案,以避免过拟合并提高相关特征的统计显著性。所选的相关特征将是向用户解释模型的途径。

      第二,如果已经存在用于特定领域应用的预训练 DL 架构,可以将迁移学习作为放射组学的替代方案应用,也可以与适当的数据增强相结合。当这不可能时,如果可用的样本量大且多样,则可以从头开始训练 DL。应修改和调整 DL 架构以达到所需的特征学习水平,利用优化器加快训练收敛并通过正则化提高模型泛化能力。将激活特征的显著性图叠加在原始图像上,可以向用户解释模型的功能。

      第三,关于样本量定义,为了避免主观评估并涵盖每个特征十个样本的经验规则,可以使用 Vapnik-Chervonenkis 方法(见第3.1节)来适用于任何 AI 方法,并通过仔细监测训练样本的学习曲线进行有益的补充。

      第四,除了优化单个 AI 架构的性能外,AI 开发者和用户更好的投入应是构建不同分类器的组合,其整体决策可以提高各个分类器单独使用时的预测能力。

     为了将本文中呈现的技术和实际知识置于更广泛的背景中,我们应该考虑到对 AI 在人类生活中角色的认知仅是相对最近的。由 COVID-19 疫情推动的向更数字化和在线世界的转变,仅自2015年 AI 系统开始在图像解释中超越人类读者以来才展现出一个正在行动的趋势,这得益于过去十年我们见证的计算能力的大幅提升。

     生物医学和医疗保健系统是 AI 应用最重要的领域之一,医学影像可能是最适合和最有前景的领域。考虑到向所谓的“P4 医学”——基于预测、预防、个性化和参与的理想趋势,AI 工具是促进这一未来方式的良好候选者。最后一个“P”,代表更广泛的患者赋权,也可以通过良好的 AI 使用得到增强,因为人类智能可以通过向 AI 学习得到提升,前提是人类具备正确的知识和技能。我们可以从面对这一不可避免革命的医疗保健专业人员开始。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值