预测模型构建和评价
文章平均质量分 77
全局评价不敏感;临床决策曲线划定了预测模型的使用范围,为什么不用局部评价呢?
预测模型的开发与应用研究
预测模型的开发、应用和动态化
展开
-
预防临床预测模型中可能的“算法歧视”
现在最常被讨论的伦理问题,叫做“算法歧视/偏见”,其描述的是算法可能会对某些问题形成偏见,因为所用的训练数据带有这种偏见。训练数据中的性别等不均衡会造成模型的算法偏差,进而导致预测结果在性别之间的预测准确度不一致,最终对患者的健康和公平造成负面影响,需要引起足够的重视,避免模型推倒重来。概要:如果训练数据中存在性别方面的不均衡,会让训练出的模型存在性别方面的“算法歧视”,进而导致某种性别下存在更多的误诊误治,最终造成医疗资源分配的不公平的伦理问题,导致模型不被临床所接受。这是解决数据偏差有效的方法之一。原创 2024-07-02 16:11:14 · 362 阅读 · 0 评论 -
是时候让临床预测模型进入临床实践
除了以上的技术考量之外,要想预测模型能有进一步的发展,就需要预测模型先落地临床实践,在实践的过程中发现问题,解决问题;另外,临床上也需要预测模型性,现在的预测模型的效能在某些领域是由于现有的临床量表的,能够取得更好的临床效果,且临床医生的工作日益繁重,需要更多的工具来辅助诊疗环节。原创 2024-06-07 22:26:04 · 626 阅读 · 0 评论 -
医院内跌倒的预测模型构建(Boruta+lightgbm+DCA分析)
通过以上的步骤构建了一个临床预测模型,后续可以通过构建web APP 部署来方便临床实践,对医院内容易跌倒的人群进行预测,进而采取跌倒的保护措施,预防跌倒造成的危害。同时,建立相关的队列来评价预测模型是否能够产生临床影响,即是回答否保护了易跌倒的人群。在确认了这些之后,模型就可以进入到临床应用。原创 2024-05-31 17:56:53 · 341 阅读 · 0 评论 -
医学预测模型进入临床实践的三个考量
目前的许多预测模型虽然具有较高的准确性和外推行,却仅仅是给出了预测结果,而没有给出后续的措施或者建议,也就无法通过DCA分析来确定模型的决策阈值, 这样的模型是无法进行临床实践的,只有综合考虑以上三个方面,才能确保模型发挥其应有的价值,真正造福患者。随着,临床预测模型不断地被构建出来,需要考虑的一个问题是临床预测模型如何进入临床实践,发挥其应有的价值。因此,在构思预测模型时,首先要考虑的是各种预测结果下,对患者或医生的建议是什么或者后续的治疗诊断措施是什么。原创 2024-05-27 13:28:51 · 394 阅读 · 0 评论 -
评分卡制作过程中关键参数设定的思考(含评分卡代码链接)
评分卡是医学预测模型临床应用的一种形式,方便,快捷,易于理解,与列线图和网页APP相比也有一定的优势,也是值得充份了解学习的一种形式。原创 2024-04-19 13:50:15 · 401 阅读 · 0 评论 -
医学临床预测模型发展新趋势-并联式
感觉这是一个很好的设计,和大家分享一下。通过输入一套指标,经过背后三个预测模型的计算,得到三个相近的结果,从不同方面共同评价一个疾病的预后,为医生或者患者提供更多的关于疾病的信息。首先,是要收集疾病的多个结局。这是临床上常见的情况,比如癌症常考察的指标有死亡、局部转移,远处转移等;其次,搜集三个结局指标对应的预测变量,因为这些预测变量会有交叉,所以预测变量总体数量上并不会增加很多。FUSE-ML是一个用于预测腰椎融合术后效果的APP,它可以做出三个不同的结论,分别评价术后的腰痛、腿痛和日常功能是否提高。原创 2024-04-16 18:53:58 · 422 阅读 · 0 评论 -
院内感染的相关因素分析(Boruta联合SHAP分析2)R
院内感染的发生除了与环境因素、医疗操作因素等有关之外,还与患者的患者自身因素有密切关系,研究表明,老年、营养不良、免疫功能低下、长期住院、慢性基础疾病、免疫抑制等的患者容易发生院内感染。而患者的肌肉营养状况是院内感染的相关因素,单因素分析、AUROC值和Boruta算法都表明这一点,但是因为两者之间的关系并非线性,这可能也是导致多因素逻辑回归计算的AMA的OR值没有统计学显著性的原因。2.LOS与AMA的SHAP值的散点图 结果显示在LOS 8或9天以后,发生院内感染的概率发生较大的增加;原创 2024-04-03 14:39:12 · 932 阅读 · 0 评论 -
特征选择集大成的包-arfs(python)
arfs介绍文档英文好的朋友可以阅读作者写的介绍:文库要求python3.9以上,GPU。Boruta与shap值结合似乎是一种趋势,还有其它的两个Python包也这样做,分别是BorutaShap和eBoruta,这一点在R语言还没有发现相似的包。类似Boruta的变量筛选方法,叫做relevant feature selection;Lasso 回归相关的变量筛选方法;根据变量间的相关性(比如spearman法)筛选变量;预处理模块,比如,处理缺失值、编码变量、选择列等。原创 2024-03-30 19:59:51 · 961 阅读 · 0 评论 -
关于Web APP 促进临床预测模型进入临床实践的讨论
构建临床预测模型Web APP,通过一些模块可以辅助预测模型在临床上的落地,比如模型介绍模块可以介绍模型的适用范围等,外部验证模块,可以方便用户了解本地数据是否可以适用于模型等等,笔者认为是临床预测模型的落地提供了一种可行的方案。积累了一定的经验,对预测模型APP的构建和部署都有所了解,但也是初学乍练,大家一起提高。所以,对于以上问题的讨论是推动预测模型进入临床实践的重要力量,为此我们建立了一个微信群,希望大家聚在一起就共同感兴趣的话题进行讨论,也可以就相关的问题展开合作,欢迎大家加入。原创 2024-03-26 16:05:01 · 892 阅读 · 0 评论 -
医学预测变量筛选的几种方法(R语言版)
以上介绍了四种常用的预测变量筛选方法,每种方法都有其优缺点。在实际应用中,可以根据具体情况选择合适的方法。为了更好的展示,原创 2024-03-19 13:31:02 · 858 阅读 · 0 评论 -
医学数据分析中缺失值的处理方法
缺失值的处理是一个复杂的问题,需要根据具体情况选择合适的方法。原创 2024-03-14 08:47:29 · 466 阅读 · 0 评论 -
The Bridge:从临床数据到临床应用(预测模型总结)
如果说把临床预测模型比作临床数据和临床应用之间的一座“桥梁”,那它应该包括这样几个环节:模型的构建和评价、模型的概率矫正、模型决策阈值的确定和模型的局部再评价。模型的构建和评价是关注和讨论比较多的,但是后三个环节同样也很重要,缺少了某个环节可能导致预测模型不能够进行临床应用,但是它们受到的重视程度不高,许多人甚至并不知道。原创 2023-11-25 16:00:34 · 261 阅读 · 0 评论 -
新的预测模型的局部评价指标-pAUROCc
两个模块几乎一样,不同的是演示模块使用的内置的数据集,不需要自己上传数据,而分析模块有稍多的可调整的参数。pAUCc(concordent partial AUC )是在2020年一篇文章(PMID:31906931)中介绍的指标,可以用于评价不平衡数据,作者认为是优于现有的局部AUROC的评价指标,详细的关于这个指标的介绍和评价,可以参考以上文献。模块2:自行上传数据集,增加了一个调整参数,曲线的精细度,是通过调整阈值的跨度来实现的,数值越小曲线越精细,但对局部AUC的计算并没有影响。原创 2023-11-23 16:49:42 · 72 阅读 · 0 评论 -
非平衡数据处理过程中可以尝试的三个额外措施
非平衡数据是需要单独处理的一类问题,否则会造成模型效能的下降。通常非平衡数据处理过程中的需要对训练数据集进行重采样,比如采用上采样、下采样或者混合采样等多种方法以使结局变量中类别的数量实现平衡。另外,评价模型效能的时候采用常见的ROC曲线下面积会高估模型的效能,所以会搭配PR曲线来进一步评估模型的表现。非平衡数据集是医学数据集中常见的一种数据形式,指的是二分类结局变量中一种类别的数量远于另一类别的数量的情形,比如以远处转移或者死亡作为结局变量,远处转移或者死亡类别的数量往往远小于对照的数量。原创 2023-08-22 21:46:55 · 95 阅读 · 0 评论 -
堆叠聚合模型是处理非平衡数据的理想算法
此次分析过程中值得一提的一个发现,就是叠聚合模型的不需要进行概率的校准就能够达到一个比较良好的校准度,体现在校准曲线上就是预测的曲线和实际的理想的曲线比较贴合(图2F),甚至优于经过概率校准的单一的逻辑回归模型。非平衡数据是指结局变量中的类别比例不均匀,有的类别的数量会远远少于其他的类别,而医学数据往往是非平衡的数据,比如肿瘤转移患者的数量往往是小于肿瘤不转移患者的数量。这里使用SEER来源的食管癌非平衡数据构建堆叠聚合模型,并与单纯的逻辑回归模型进行比较,体现堆叠聚合模型在处理非平衡数据中的一些特点。原创 2023-08-17 09:53:39 · 109 阅读 · 0 评论 -
构建临床预测模型策略的思考
两个构建临床预测模型策略的总结和可能的思考原创 2022-03-02 11:49:19 · 901 阅读 · 0 评论 -
临床决策曲线DCA如何解决预测模型的痛点
首先还是要确定阈值的范围,然后在这个阈值范围内,选择两个模型中净收益较高的模型,代表了模型筛选的效率较高的模型。这种情况是使用相同的变量,而算法不同,因未产生额外的代价,仅考虑净收益的大小即可,净收益高的模型优于净收益低的模型。这种情况使用的额外的预测变量而产生了额外的代价,所以在考虑净收益大小的同时,还要考虑两个模型净收益差是否足够大。还是考虑以上两方面,就是将循序颠倒,先考虑DCA曲线的参数,然后考虑临床。原创 2023-03-20 21:45:32 · 1063 阅读 · 0 评论 -
预测模型的局部评价?
目前了解到的并可以实现的指标有三种,原创 2023-04-18 16:31:46 · 196 阅读 · 0 评论 -
决策曲线拆解分析兼随机森林DCA绘制
对照线性模型的情况来看,应该使用全部数据集来绘制DCA曲线,那麽我们就要使用训练出的模型来预测整个数据集的概率,这会产生overfit的疑虑,所以目前觉得使用交叉验证的方法来获得整个数据集的预测概率是比较妥当的。目前为止,官方只给出了线性模型(逻辑回归和COX)的DCA绘制方法,这一点是有点奇怪的,可能有些方面不适合向随机森林这样的模型(可能是其中的某些关键元素只能用线性模型来解释),但是从技术层面来看,各种模型都可以制作DCA曲线。以下是模型曲线净收益的计算公式。可以看到两者是略有区别的。原创 2023-03-19 17:39:34 · 1533 阅读 · 5 评论