Radiology:医学诊断人工智能算法的临床评估方法

摘要

临床评估人工智能(AI)旨在通过确认AI性能可接受来确认AI辅助诊疗相对于传统诊疗的优势。需要进行前瞻性研究来评估AI的临床表现。

要点

■ 为了更有效地进行人工智能(AI)算法性能的外部测试,研究者应该有明确的外部测试目的,并明确说明适当的泛化水平和条件。

■ 有多种指标和图形方法可用于评估AI算法的性能,需要扎实的方法学知识来正确使用和解释它们。

配对设计在比较AI未辅助和AI辅助诊断之间的性能方面具有显著优势,特别是当AI用作附加工具时。

平行设计通常适合比较传统诊疗和AI辅助诊疗之间的结果,而随机临床试验是理想的选择。

■ 最近已发布或正在制定多种医学AI临床研究报告指南,这可能有助于研究的设计和报告。

引言

医学人工智能(AI)的开发和应用持续发展。许多算法已获得监管机构的医疗器械批准,如美国食品药品监督管理局(FDA)和欧洲CE认证。关于AI临床实施的讨论持续深入。值得注意的是,美国FDA、加拿大卫生部和英国药品和保健品监管局最近共同确定了良好机器学习实践的10项指导原则。在实践中采用AI算法之前进行充分的临床评估至关重要。临床评估旨在通过充分的外部测试确认AI性能可接受,并通过适当设计和实施的研究(其中前瞻性研究是可取的)来确认AI辅助诊疗相对于传统诊疗的优势。可以通过两种主要方法评估AI在临床实践中的优势。一种方法是对传统的AI未辅助和AI辅助实践之间的诊断性能进行比较评估。另一种是比较传统诊疗和AI辅助诊疗之间的护理结果(即研究AI干预的效果)。这些评估还应考虑AI如何在诊断路径中支持医疗专业人员——例如,AI是作为人类实践的附加工具(如通过计算机辅助检测和/或诊断或临床决策支持系统进行诊断),还是在诊断过程中作为独立的元素发挥作用(如让AI对工作清单进行优先排序或对患者进行分诊)。请注意,本文中使用的"诊断"和"诊断性"术语具有广泛的含义,不仅包括特定疾病的指定或检测,还包括所有其他诊断决策(如识别不同的疾病状态、亚型、阶段或范围以及预测未来事件)。

本文解释了在设计和评估医学诊断AI算法的临床评估时应考虑的一些基本方法学要点。这些解释主要从分类和检测的角度出发,因为这些是将AI应用于医学诊断的主要最终形式。然而,AI也可用于非分类和/或检测任务,特别是在医学成像中,包括图像分割和用于质量改进的图像合成(如去噪或分辨率增强)。因此,本文中的一些解释可能不直接适用于评估非分类和/或检测AI算法技术性能的场景,例如使用表1中相应指标评估分割性能或合成图像质量。尽管如此,非分类和/或检测算法的功能通常作为一个中间步骤。当应用于临床实践时,这个中间功能会继续到最终以分类或检测形式进行的诊断决策,如表2中的示例所示(14-22)。因此,非分类和/或检测AI算法的最终临床评估与分类和检测类似。

表1:常用于评估AI算法性能的指标和图形方法的非详尽列表

img

表2:执行非分类和/或检测任务的AI算法的技术与临床性能评估示例

img

AI性能的外部测试:为什么和如何?

为什么进行外部测试

当前数据驱动的AI技术的有限泛化性是众所周知的。AI算法往往对训练数据和开发环境具有出色的准确性,但在使用未用于训练的来自实际实践的外部数据时,其性能通常会下降。有限的泛化性是由于实际医疗数据和实践的内在性质,其中包括相当大的异质性、各种灰色区域(如无法二分为癌症与良性的不确定状态,因为疾病是一个动态过程),以及各种噪声元素(如由于医疗设备技术故障或仅是偶然或临时的信号而导致的数据获取损坏、人为或不完整),而不是建模方法。Futoma等人将医学AI算法泛化性的潜在威胁分类如下:(a)实践模式随时间的变化,(b)医疗系统之间的实践差异,©患者人口统计学变异,(d)患者基因型和表型变异,(e)用于数据捕获的硬件和软件变异,以及(f)健康和疾病的其他决定因素变异(如环境、社会、政治和文化)。因此,尽管使用了技术对策,仍难以充分避免这种局限性。

因此,对算法进行充分的外部测试——最好在多个地点和条件下进行——很重要。外部测试涉及使用独立于模型开发所用数据的数据来评估AI算法的性能——通常来自不同机构(地理)或不同时期(时间)。这应该与使用数据分割的内部测试明确区分开来。

获得监管机构批准的AI算法也不能免于有限泛化性的问题。例如,一个被美国FDA批准用于通过颈椎CT扫描检测颈椎骨折的AI算法,当在一家学术一级创伤中心及其相关的门诊影像中心对1904例急诊检查进行外部测试时,达到了55%的敏感性和94%的特异性。这与提交给FDA批准时显示的92%敏感性和89%特异性有很大不同。根据对2015年1月至2020年12月期间FDA批准的130个医疗AI设备的分析,93个设备的评估研究未包括多中心评估,8个设备仅在两个地点进行了评估

如何有效开展外部测试

AI算法外部测试的目的不是为了证明其普遍泛化能力。在当前AI技术中,医学AI算法的普遍泛化能力可能只是一个神话。追求更强的泛化能力往往会导致系统在单一场所的强大性能被牺牲,转而在多个场所表现平庸或较差。因此,为了更有效地开展外部测试,研究者应该有明确的外部测试目的,并明确说明适当的泛化水平和条件。然后,他们应该相应地收集测试数据。

通常,AI评估旨在确定算法在实际应用中的性能。因此,通过建立明确的入选标准,研究者应首先明确AI使用的实际临床设置和他们希望将结果泛化到的目标患者。例如,考虑一个通过肝脏MRI扫描检测肝细胞癌(HCC)的AI算法。这样的算法通常使用疾病富集的平衡数据集(即HCC阳性和阴性病例数量相当)进行训练以实现有效建模。训练数据集是通过便利抽样有意纳入更多疾病阳性病例,并可能通过额外的数据增强来创建的。然而,要对该算法在HCC监测中分析肝脏MRI扫描的性能进行外部测试,测试数据集应该从连续或随机选择的基于MRI的HCC监测的实际候选者中收集,例如患有肝炎病毒相关代偿期肝硬化的患者。

对于上述类型的研究设计(称为诊断性队列研究),前瞻性收集测试数据集是可取的。测试数据将与训练数据不同。测试数据集将高度不平衡,因为即使在HCC高风险患者中,HCC的年发病率也仅为3%-8%。监测队列中的HCC和肝脏可能也会表现出与训练数据中不同的MRI发现谱。

相比之下,假设外部测试的目的是专门确定AI算法是否能够很好地处理使用不同于训练图像所用的MRI扫描仪获得的图像。那么,与通常在实际应用中进行的AI性能外部测试不同,只要图像是使用不同的MRI扫描仪获得的,便利收集疾病富集数据集(类似于训练数据的收集方式)可能足以满足这一特定目的。

所需的精确泛化水平和条件取决于临床和研究背景。对于任何计划整合到临床环境中的AI,验证时间泛化性的外部测试将是必要的第一步,因为即使在同一机构,算法开发(即过去数据)和实际应用(即当前数据)之间的数据分布往往存在显著差异

评估AI性能的指标和图形方法:基本方法学要点

表1列出了常用于评估AI算法性能的指标和图形方法。本节讨论使用和解释这些方法时需要注意的几个基本方法学要点,而不提供每种指标和图形方法的百科全书式解释,这些可以在其他地方找到。

区分性能和校准性能

区分性能指的是区分目标类别(如疾病)与非目标类别的能力。相比之下,校准性能指的是目标类别预测概率与实际概率的相似程度。校准图常用于评估校准性能。图1显示了先前工作中的一个例子。良好的区分性能并不总是确保良好的校准性能(反之亦然),两者应该分别分析。校准性能适用于静态和时间-事件诊断。然而,关于静态诊断的AI研究往往不报告校准性能,而关于时间-事件诊断的研究似乎更频繁地报告校准性能。在AI算法性能的临床评估中,应该更加重视对校准性能的充分评估。

img

图1:两条校准曲线(黑色和蓝色)显示了胰腺癌患者在手术后1年(黑色)和2年(蓝色)随访时无复发生存的概率,x轴为算法预测的概率,y轴为实际概率。

由于在时间-事件分析中,事件概率是针对不同时间点分别计算的,因此校准曲线也针对每个随访时间点分别绘制。在这个例子中,根据相似的预测概率将受试者分为六个子组(每个图中的六个点),x坐标是各组的平均预测概率值。使用更多子组的充分大的研究样本量是更好的选择;例如,按预测概率的十分位数分为10个子组。完美的校准应该位于图中的45°对角线上,表明预测概率和实际概率相同。RFS = 无复发生存。

不同接收者操作特征分析方法之间的差异

以用于诊断肝癌的AI为例,当AI的功能是区分有无肝癌的肝脏时,传统的接收者操作特征(ROC)分析是足够的。病变位置被忽略。相比之下,当AI的作用是标记可疑肝癌的具体位置时,定位ROC(LROC)、自由反应ROC(FROC)或替代FROC(AFROC)分析更为适合。在这些分析中,真阳性AI结果需要正确定位和表征病变。

如果AI在有肝癌的肝脏中创建了肝癌标记但位置不正确,这对LROC、FROC和AFROC分析来说是假阳性AI结果。LROC、FROC和AFROC分析的一个重要组成部分是邻近标准(即AI标记的位置和真实标记应该有多接近才能认为AI位置是正确的)。例如,在一项关于AI检测数字乳腺断层摄影图像中乳腺癌的研究中,邻近标准被指定为AI标记的中心点与真实框中心之间的距离要么小于真实框对角线的一半,要么小于100像素。定义清晰和合理的邻近标准很重要,因为选择不同的标准可能导致不同的性能结果。LROC受到限制,因为每个异常病例不能包含多个病变,而FROC和AFROC没有这种限制,因此通常更适合实际临床环境。FROC和AFROC曲线的区别在于,在FROC分析中x轴表示每个病例(示例中的肝脏)或每张图像的平均假阳性发现数,而在AFROC分析中表示病例级别的1减特异性值(图2)。因此,与AFROC曲线下面积相比,FROC曲线下面积不是标准化的性能指标。

img

图2:MRI扫描和自由反应接收者操作特征(ROC)(FROC)和替代FROC(AFROC)曲线

(A)一个虚构的人工智能(AI)算法用于通过肝脏MRI扫描检测肝细胞癌(HCC)的结果显示在无HCC的肝脏中生成了四个AI病变标记(框内顶部显示原始数值输出)。随着HCC诊断的临界值从0.1增加到0.8,用于计算FROC分析的平均假阳性发现数和用于计算AFROC分析的病例级特异性的假阳性与真阴性状态会发生变化。

(B)在FROC曲线示例中,x轴表示每张图像的平均假阳性发现数。x轴没有固定的最大值。FROC曲线根据假阳性发现的数量在x轴上延伸不同的距离。算法A的曲线比算法B的曲线更早终止,表明算法A产生的假阳性发现更少。因此,与其他ROC分析不同,FROC曲线下面积不是标准化的性能指标。曲线越接近左上角表示性能越高(即算法A的性能高于算法B)。

©如示例所示,AFROC曲线看起来类似于传统的ROC曲线。然而,AFROC曲线的独特之处在于y轴和x轴分别是病变级敏感性和病例级的1减特异性值。与FROC分析相比,AFROC曲线下面积是一个标准化的性能指标。

**时间依赖ROC分析指的是对时间-事件预测的ROC分析。**与静态二元分类的ROC分析相比,真实状态(事件与无事件)取决于分析时间,因为早期处于无事件状态的受试者可能在后期发生事件。因此,**时间依赖ROC分析是针对随访期间的不同时间点分别进行的,**例如,在几个选定的时间点或每个时间点。此外,可能存在真实状态未知的受试者,因为他们在分析时间之前失访(即审查对象)。更多细节超出了本文范围,可以在其他地方找到。

ROC曲线下面积与用户临界值的敏感性和特异性

ROC曲线下面积(AUC)是跨原始AI输出所有可能临界值范围的平均理论性能指标。AUC可能无法准确反映算法在实际使用中的性能(即在用户临界值时的敏感性和特异性)。例如,在一项评估AI算法用于胸部X光片检测主要胸部疾病性能的研究中,研究人员在五个不同机构测试了该算法。各机构的AUC值相似且较高,范围从0.973到1。然而,在预设用户临界值时的特异性从56.6%到100%变化很大,敏感性从91.3%到100%不等。因此,**在AI性能的临床评估中,除了AUC外,确认用户临界值时的性能至关重要。****研究结果还表明,最佳用户临界值必须根据各机构的患者特征和临床环境进行微调。**最佳临界值不能仅通过ROC曲线(即敏感性和特异性)来确定,例如使用Youden J指数。它还应考虑疾病的患病率和假阳性和假阴性诊断的相对成本(不仅是财务成本)。

不平衡的测试数据和精确率、F1分数和精确率-召回率曲线的使用

精确率与阳性预测值相同,F1分数是精确率和召回率(与敏感性相同)的调和平均数(图3)。在精确率-召回率曲线中,当改变原始AI输出的临界值时,召回率和精确率分别沿x轴和y轴绘制(图4)。与敏感性、特异性和AUC相比,**精确率、F1分数和精确率-召回率曲线下面积(AUPRC)显著受疾病患病率的影响(图4)。**如前面在将AI应用于基于MRI的HCC监测的例子中所提到的,虽然平衡的数据集有利于算法训练,**但在临床环境中疾病阳性对阴性的比例往往是不平衡的。**因此,与开发环境相比,精确率、F1分数和AUPRC值在临床应用中往往会大幅下降。因此,**精确率、F1分数和AUPRC是报告算法在存在数据不平衡的临床环境中性能的有用补充指标,**可以清楚地显示算法性能与开发环境中的性能有何不同。

img

图3:2×2诊断交叉表(也称为混淆矩阵)显示了相关的性能参数

AI = 人工智能,FN = 假阴性,FP = 假阳性,TN = 真阴性,TP = 真阳性。

img

图4:线图显示了精确率-召回率曲线随疾病患病率变化的情况

对于同一个虚构的算法(例如,一个区分有无肝细胞癌患者的算法),其ROC曲线下面积为0.923,随着目标疾病的患病率从28.6%(疾病阳性=100;疾病阴性=250)降低到9.1%(疾病阳性=100;疾病阴性=1000)和4.8%(疾病阳性=100;疾病阴性=2000),精确率-召回率曲线下面积从0.830大幅下降到0.595和0.448。在模拟中,除患病率外的所有其他因素保持不变。使用的原始数据见附录E1(在线)中的表E1-E3。AUPRC = 精确率-召回率曲线下面积。

评估AI在实践中的益处:配对与平行研究设计

在一项先前的研究中,**研究者比较了放射科医师在无AI辅助和AI辅助(AI作为附加工具)情况下使用手部X光片进行骨龄评估的准确性。**研究者将1903例检查分为939例(最终分析739例)用于常规阅片和964例(最终分析792例)用于AI辅助阅片。这种设计称为平行设计,即比较两个平行组。由于两组之间的可比性对于无偏的组间比较至关重要(例如,如果一组包含的病例比另一组更容易阅读,这组的性能就会被夸大),他们将受试者随机分配到两组以进行随机临床试验。虽然随机临床试验常被视为临床研究的巅峰,但这项研究的目标也可以通过使用单一组的受试者(而不是随机临床试验设计)来实现,**即比较同一组在有无AI辅助下获得的结果。这种设计称为配对设计(即在同一研究参与者内配对测试结果)。**以下两节解释了各种配对和平行研究设计的特点,以及如何使用它们来评估AI在实践中的益处。

主要用于比较常规和AI辅助诊断性能的配对设计

**对于比较AI未辅助和AI辅助解读之间的性能(特别是当AI用作附加工具时),配对设计是有效的并具有显著优势。**首先,由于每个受试者作为自己的对照,比较中具有完美的可比性(零混杂效应)。相比之下,如果正确执行,随机临床试验中的受试者随机化可以平衡组间的混杂因素并最小化混杂效应。此外,配对分析增加了统计效能,因此与平行设计相比需要的受试者数量少得多。

当对同一受试者使用第一种方法不会影响使用第二种方法进行重复评估时,配对设计是适当的。否则,通过第二种方法获得的结果将会有偏差。诊断行为,特别是解读已从患者获取的数据,通常不会对受试者造成显著的改变。因此,配对设计通常是比较常规AI未辅助诊断和AI辅助诊断性能的最有效方法。

几种配对设计变体可用于比较AI未辅助和AI辅助解读之间的性能。图5显示了不同的配对设计方案(特别是针对AI作为附加工具的场景),包括逐例顺序进行有无AI解读、分开进行有无AI解读会话,以及交叉设计。在文献中可以找到代表性的研究。在2020-2021年发表于Radiology和Radiology: Artificial Intelligence的24项比较常规AI未辅助诊断和AI辅助诊断性能的研究中,22项研究(92%)使用了配对设计,1项研究(4%)使用了平行设计(剩余1项研究的设计不明确)。在采用配对设计的22项研究中,3项研究(14%)使用了逐例顺序的有无AI解读,11项研究(50%)使用了顺序的有无AI会话,5项研究(23%)使用了交叉设计(剩余3项研究使用了其他设计特征)。

img

图5:各种配对和平行研究设计显示了常规和人工智能(AI)辅助实践之间的比较

逐例顺序进行有无AI解读

检查者先不使用AI解读一个病例,锁定结果,然后在看到AI结果后进行重新评估。这些步骤逐例重复进行。这种方案最简单易行;然而,它有缺点。由于解读者对每个病例持续收到AI的反馈,随着研究进行,AI未辅助的性能可能会变得与AI辅助的性能相似。此外,该设计只能处理将AI作为第二解读者的模式(即仅在完成初始人工解读后才显示AI结果)。

分开进行有无AI解读会话

**通常在第一次会话中不使用AI进行解读,在第二次会话中使用AI。**与前一种设计相比,两次会话设计可以评估使用AI的各种模式。**两次会话之间通常需要清洗期以防止第一次会话的学习效应(如记住病例)。**在使用AI的模式或解读任务的性质否定了人类读者和AI之间相互作用的研究中,第一次会话的解读结果可能仅被复制到AI辅助会话中并与AI的结果合并。在这种研究中,可能不需要清洗期。然而,人类和AI之间通常存在大小不一的相互作用,如自动化偏差(即过度依赖自动化辅助)或由AI线索造成的分心。这种相互作用可能使AI辅助解读会话中的人工解读部分与AI未辅助的人工解读不同,需要清洗期和在AI辅助会话中重复进行人工阅片。适当的清洗期长度取决于病例数量、其独特性和解读任务的特点。包含更多独特病例或更少病例的研究需要更长的清洗期。在2020-2021年发表于Radiology和Radiology: Artificial Intelligence的相关研究中,清洗期从2-6小时到3个月不等。在第二次会话前随机重排病例审查顺序有助于进一步避免学习效应并消除病例顺序的潜在影响。

**这种设计的一个潜在缺陷是它可能会给第二次会话使用的方法带来轻微优势。**例如,尽管有适当的清洗期和病例重排,读者在第二次会话中可能比第一次会话更熟悉数据导航或操作解读系统,这可能会对第二次会话的性能产生积极影响。

交叉设计

交叉设计将受试者随机分成两半。随机一半的受试者被分配在第一次会话中先不使用AI进行解读,然后在第二次会话中转为使用AI进行解读。另一半受试者先使用AI进行解读,然后转为不使用AI。因此,交叉设计避免了前述顺序两次会话设计中给某一方法带来优势的潜在缺陷。除此之外,它与前一种设计类似。

交叉设计是一种已在传统临床试验中得到充分确立的方法,如治疗药物试验(即一半受试者被随机分配先接受药物A,经过清洗期后转换为药物B,另一半按相反顺序用药,以比较药物A和B的效果)。**它也被称为交叉随机临床试验。**交叉设计在治疗试验中不如常规平行随机临床试验常用,因为其使用仅限于第一种药物的治疗效果是暂时的,且患者在清洗期后返回未治疗状态的情况。然而,与平行随机临床试验相比,它具有研究所需受试者数量远少且比较时具有无混杂效应的完美可比性的优势。将交叉设计用于AI的比较研究是将已确立的方法学扩展到AI研究。

主要用于评估AI干预效果的平行设计

平行设计可用于比较AI未辅助和AI辅助诊断的性能。然而,平行设计(图5)通常更适合评估AI干预的效果(即比较常规诊疗和AI辅助诊疗之间的结果)。与AI未辅助和AI辅助诊断之间的性能比较不同,AI干预效果的评估通常不能使用配对设计执行。一旦在有无AI辅助的情况下做出患者管理决策并相应地确定后续诊疗结果,通常不可能撤消结果并尝试另一种管理方法。

随机临床试验

随机临床试验是进行平行设计比较的理想选择,因为它们平衡了所比较组之间的已测量和未测量的混杂因素,并最小化了对研究结果的混杂效应。**对AI技术进行临床评估的随机临床试验仍然很少——特别是对于最近开发的深度学习技术。**尽管如此,已报告了各种评估AI算法的随机临床试验。值得注意的是,多项随机临床试验被用于评估计算机辅助检测软件工具在辅助结肠镜检查检测结直肠肿瘤方面的效果。腺瘤检出率是这些研究中的关键结果参数。腺瘤检出率的分析需要对检测到的病变进行切除或活检以进行病理确认。因此,一旦在有无AI辅助的情况下进行结肠镜检查并切除检测到的病变,患者就不再适合使用另一种方法进行检查。作为另一个例子,几项随机临床试验通过比较有无AI辅助的产科护理之间不良新生儿结局的发生率,如新生儿酸中毒、5分钟Apgar评分低于7分、入住新生儿重症监护病房、新生儿癫痫和围产期死亡,来研究AI辅助监测分娩期胎心率图的效果。

**对分组的盲法是随机临床试验的另一个关键要素。**在评估AI干预的效果时,与传统的治疗药物随机临床试验相比,让护理提供者和结果评估者(如主治医生或研究读者)对AI是否存在保持盲法是困难的,尽管不是完全不可能。例如,一项关于结肠镜检查AI的随机临床试验使用了模拟系统为解读者提供假AI结果以实现盲法。在另一项关于AI驱动的头部CT检查工作清单优先排序效果的研究中,读者不知道AI是否对工作队列进行了优先排序,从而实现盲法。然而,这些盲法措施并不完美,也不如治疗随机临床试验中使用的安慰剂药物那样有效。考虑到盲法的困难,AI干预的随机临床试验应使用更客观的参数作为研究终点,而不是研究者可以操纵的参数(如解读图像所花费的时间)。

非随机平行设计

常规诊疗和AI辅助诊疗之间的结果也可以使用非随机平行组进行比较(特别是在回顾性研究中),尽管结果不如随机临床试验那样稳健。例如,在一项研究中,回顾性调查了一个发挥分诊和/或筛查作用的AI系统(即自动识别头部CT血管造影中疑似大血管闭塞性卒中并立即向神经血管内团队发出警报)的效果。研究者比较了在其实践中采用AI系统前后从患者到院到治疗的时间以及患者结局。对于这种非随机比较,建议使用倾向评分分析或多变量调整等统计方法来考虑已测量的混杂因素。例如,在另一项研究中,调查了AI作为附加工具在胸部X光片检测肺转移方面的效果。比较了有无AI辅助读片的两个非随机分开组的检查诊断产出,并使用倾向评分匹配来考虑组间年龄、性别和原发癌类型分布的差异。

AI算法临床评估研究报告指南

最近已发布或正在制定多种医学AI临床研究报告指南。表3列出了在EQUATOR Network库中注册的相关报告指南。其他专家和团队也提出了相关指南。此外,还有几个用于对医学AI研究质量进行关键评估的指南,包括用于评估影像组学研究质量的影像组学质量评分、用于评估TRIPOD-AI范围内研究质量的PROBAST-AI和用于以AI为中心的诊断测试准确性研究的QUADAS-AI。这些指南不仅有助于研究的报告和评估,也有助于研究设计。

表3:EQUATOR Network库中注册的医学AI研究报告指南(2022年6月最后更新)

img

结论

人工智能(AI)算法的临床评估旨在通过充分的外部测试确认AI性能可接受,并通过适当设计和实施的研究确认AI辅助诊疗相比常规诊疗的优势,其中前瞻性研究是可取的。为了更有效地进行AI算法性能的外部测试,**研究者应该有明确的外部测试目的,并明确说明适当的泛化水平和条件。**有多种指标和图形方法可用于评估AI算法的性能,需要扎实的方法学知识来正确使用和解释它们。**与平行设计相比,配对设计在比较AI未辅助和AI辅助诊断之间的性能方面具有显著优势,这归功于完美的组间可比性和所需受试者数量更少。**然而,**平行设计通常更适合评估AI干预的效果(即比较常规诊疗和AI辅助诊疗之间的结果),其中随机临床试验是理想的选择。**最近已发布或正在制定多种医学AI临床研究报告指南。这些指南可能有助于研究的设计和报告。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值