乳头状甲状腺癌(PTC)是内分泌系统中最常见的恶性肿瘤,占所有甲状腺癌病例的80%以上。虽然随着体检的普及,PTC的检出率明显升高,但少数患者会出现远处转移(DM),总体预后显著恶化,10年生存率也从90%下降至40%。
因此,找到一种有效的 DM 风险早期预测方法,对于制定个体化诊疗计划和改善预后具有重要意义。
2024年10月29日,中国学者在顶刊Lancet子刊《eClinicalMedicine》(医学一区top,IF=9.6)发表了一篇题为:“Development and validation of an interpretable machine learning model for predicting the risk of distant metastasis in papillary thyroid cancer: a multicenter study”的研究论文,旨在克服以往研究的不足,通过多中心队列研究,开发并验证可解释的机器学习(ML)模型,用于PTC患者DM的早期预测。
并且,为了促进模型在临床环境中的应用,最终的预测模型被集成到一个基于Shiny应用程序的web平台中。当提供最终模型中相关特征的值时,该应用程序返回PTC患者中DM的概率。
数据收集与预处理
在这项回顾性研究中,研究团队收集了2013年6月至2023年5月期间,在云南省肿瘤医院(YCH)和昆明医科大学第一附属医院(KMU 1st AH)住院的甲状腺癌患者(≥14岁)的数据。
-
来自YCH的1430例患者(训练集)中,207例(14%)患者发生DM;
-
来自KMU 1st AH(验证集)的434例患者中,47例患者(11%)发生DM。
随后,研究者对数据进行预处理。
数据离群值,被定义为高于上四分位数加1.5倍四分位数间距或低于下四分位数减1.5倍四分位数间距的值。
-
研究者使用箱形图检查连续变量数据的离群值。
-
为了使每个数据离群点更接近主要数据的分布,每个数据离群点都被替换为两个极限之一。
对于缺失数据,研究者使用“mice”包对缺失变量进行多重插补。此外,还对各种缺失值填补方法进行了敏感性分析。
大多数变量的数据分布在训练集和测试集之间具有可比性(大多数P值高于0.05)。
筛选变量
基于整个队列探讨了PTC患者发生DM的独立危险因素。经单因素Logistic回归和多因素logistic回归分析后,最终在整个队列 (训练集 + 测试集)确定了11个与PTC中DM风险独立相关的因素(即年龄、BMI、良性甲状腺疾病、肿瘤大小、RBC计数、MONO计数、PLR、TG水平、TPOAb水平、T分期和N分期)。
接着使用递归特征消除(RFE)法进行变量选择,定每个ML模型的最佳特征子集,以提高模型的预测性能和增加模型的稳定性。
-
RFE作为机器学习(ML)特征选择的主流方法,通过将不重要的特征移除,最终获得最佳特征组合,从而实现最佳模型性能。
-
在整个RFE过程中,我们使用了10轮10折交叉验证来评估模型的性能,以确保变量选择过程的稳健性和模型的泛化能力。
模型的开发与性能比较
研究者采用logistic回归(LR)、决策树(DT)、随机森林(RF)、k近邻(KNN)、支持向量机(SVM)、朴素贝叶斯(NB)、极端梯度增强(XGB)、随机梯度增强(SGBT)和神经网络(NNET)等9种ML模型预测PTC患者DM风险。
这些机器学习模型使用R版本4.3.1和“caret”(版本:6.0.94)包开发。“ caret ”是一个全面的包,为各种ML算法提供了统一的接口。
利用训练函数和相应的方法参数构建模型,即:
-
LR (method = "glm “)
-
DT (method = ”rpart “)
-
RF (method = ”ranger “)
-
SVM (method = ”svmRadial “)
-
KNN (method = ” KNN “)
-
NB (method = ”naive_bayes “)
-
XGB (method = ”xgbTree “)
-
SGBT (method = ”gbm “)
-
NNET (method = ” NNET ")
为了优化预测模型,通过10轮10次交叉验证,结合“caret”包的默认超参数网格搜索,在最优特征子集上获得每个模型的最终超参数(Supplementary Table S5)。
最后,在训练集上使用最优特征子集和最终超参数(基于10轮10次内部交叉验证)对模型进行修正。
模型性能比较
采用受试者工作特征曲线下面积(AUC)、敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)、准确性、F1评分、Brier评分等常用评价指标评价模型的可靠性。
-
使用ROC曲线分析评价其鉴别性能,并使用1000倍bootstrap法报告AUC及其偏倚校正的95%可信区间(CI)。
-
Brier评分(范围从0到1)用于计算估计风险与观测风险之间的差值,值越接近0表示校准能力越好,从而评价模型的校准性能。
此外,采用Hosmer-Lemeshow检验来评估模型预测概率与观察结果之间的一致性,p值大于0.05通常表明模型与实际数据拟合良好。
对数损失(Log-Loss)用于计算实际标签与预测概率之间的差值,以衡量预测的准确性。
此外,使用校准曲线反映预测概率与实际结果的匹配情况。
采用DeLong检验确定不同模型的AUC值是否存在显著差异
使用综合判别改善指数(IDI)和净重分类改善指数(NRI)来评估新模型相对于基线模型的预测性能提升
进行决策曲线分析DCA以显示在不同阈值下使用模型来评估模型的临床价值的净效益
根据上述评价指标在训练集和测试集中的表现选择最佳的预测模型。
结果表明,XGB模型在AUC和特异性方面表现最好,其次是RF和LR。
但在训练集和验证集中,RF模型表现最好。
-
在训练集[AUC:0.913,95%置信区间(CI)(0.9075-0.9185)]和外部测试集[AUC:0.8996,95% CI(0.8483-0.9509)]中,RF模型准确预测了PTC患者的DM风险;
-
校准曲线显示RF模型预测风险和观察风险之间高度一致;
-
在关注PTC的DM部位的敏感性分析中,RF模型在预测“仅肺转移”方面表现出出色的性能,显示出高AUC、特异性、敏感性、F1评分和低Brier评分。
图1 9种机器学习(ML)模型在训练集和测试集中预测甲状腺乳头状癌(PTC)患者远处转移(DM)的性能
(A,B)ROC曲线分析;(C,D)校准曲线分析;(E,F)每个模型的评估度量的平行线图;(G,H)以及每个模型的DCA曲线
综上所述,RF 模型在训练集和测试集中的表现最好,因此被推荐为预测 PTC 中 DM 风险的首选模型,其次是 XGB 模型。
SHAP法进行模型解释
由于临床医生很难接受无法直接解释或根本无法解释的预测模型,我们使用SHAP方法通过计算每个变量对预测的贡献来解释最终模型的输出。这种可解释的方法提供了两种类型的解释:特征级别的模型的全局解释和个体级别的局部解释。
全局解释描述了模型的整体功能。
如SHAP汇总条形图(图A)所示,使用SHAP平均值来评估特征对模型的贡献,SHAP平均值按降序显示:肿瘤大小、TG水平、TPOAb水平、MLR和年龄是预测模型中最重要的五个特征。
此外,SHAP汇总点图(图B)直观地显示了每个特征对模型预测的影响方向和强度:肿瘤大小大、TG水平高、年龄大、肿瘤分期晚期(T3和T4)等特征显著增加了DM的风险。
SHAP 瀑布图(C)显示了每个特征对使用随机森林 (RF) 模型的第三名患者的预测结果的贡献。
此外,SHAP依赖图(图D)有助于了解单个特征如何影响预测模型的输出。将这11个特征的实际值与SHAP值进行对比,其中SHAP值大于零的特征对应于模型中的正预测。
构建风险预测工具
为了促进模型在临床环境中的应用,最终的预测模型被集成到一个基于Shiny应用程序的web平台中。通过输入模型所需的11个特征的实际值,应用程序可以自动预测个体PTC患者患DM的风险。
该平台有助于临床医生早期识别高危患者,并为个性化患者治疗计划提供基础。
图2 可预测乳头状甲状腺癌(PTC)远处转移(DM)的网络计算器
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。