非平衡数据处理过程中可以尝试的三个额外措施

非平衡数据处理过程中可以尝试的三个额外措施

在这里插入图片描述

非平衡数据集是医学数据集中常见的一种数据形式,指的是二分类结局变量中一种类别的数量远于另一类别的数量的情形,比如以远处转移或者死亡作为结局变量,远处转移或者死亡类别的数量往往远小于对照的数量。

非平衡数据是需要单独处理的一类问题,否则会造成模型效能的下降。通常非平衡数据处理过程中的需要对训练数据集进行重采样,比如采用上采样、下采样或者混合采样等多种方法以使结局变量中类别的数量实现平衡。另外,评价模型效能的时候采用常见的ROC曲线下面积会高估模型的效能,所以会搭配PR曲线来进一步评估模型的表现。以上措施被认为是处理非平衡数据集必须要采用的两个措施。

下面所说的几个措施是笔者在处理非平衡数分析过程中的几点尝试,供大家参考。

  • 尝试进行模型局部评价。PR曲线分析之外,还可以进行局部评价来评估非平衡数据集构建模型的效能[1],结合现在流行的决策曲线(DCA)分析,DCA分析可以选定阈值区间,然后在这个阈值区间内进行模型的局部评价来区分模型的优劣。
  • 尝试进行概率校正。不平衡数据集往往会在校准度方面表现差,通过保序回归(isotonic regression)的方法可以矫正模型的预测的概率,从而实现对模型校准度的改善。保序回归起初是用在随机森林等树形模型上,也可以用来改善逻辑回归模型的校准度。
  • 尝试使用堆叠聚合模型(stacking ensemble model)。堆叠聚合模型(逻辑回归+随机森林)在轻微提高ROC曲线下面积的同时会明显改善校准度,其效果甚至会优于保序回归的方法。

归根结底都是为了模型有一个良好的区分度和校准度,遇到非平衡数据集可以进行以上的尝试,相信一定有某个措施适合你。

参考文献:

Carrington AM, Fieguth PW, Qazi H, Holzinger A, Chen HH, Mayr F, Manuel DG. A new concordant partial AUC and partial c statistic for imbalanced data in the evaluation of machine learning algorithms. BMC Med Inform Decis Mak. 2020 Jan 6;20(1):4. doi: 10.1186/s12911-019-1014-6. PMID: 31906931; PMCID: PMC6945414.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

预测模型的开发与应用研究

文中代码请大家随意

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值