不平衡数据处理新挑战-预测变量不平衡的处理

不平衡数据处理新挑战-预测变量不平衡的处理

1. 结局变量的不平衡

不平衡数据集是医学数据集中常见的种类,通常是指结局变量中类别之间的不平衡。

不平衡数据集常见的处理方法主要包括从数据层面、算法层面和评价指标三个方面进行。数据层面的处理方法主要通过采样技术来调整数据集的分布,包括欠采样、过采样和混合采样技术。算法层面的处理方法主要通过修改算法本身来适应不平衡数据集。比如, 代价敏感学习(Cost-sensitive Learning)和 集成学习(Ensemble Learning)等; 评价指标方面,采用对不平横数据敏感的指标,比如PRC而不是AUC等。

2. 预测变量的不平衡

值得注意的是,数据不平衡还有另一种不平衡,就是预测变量中类别的不平衡,比如病理类型,肿瘤中罕见的病理类型有的只有几例,而常见的病理类型却有几千例; 在比如,种族,美国NIH著名的肿瘤数据库SEER中,终于要是白人的数据,黑人等种族例数较少,亚太人种等就更少,这种不平衡对于机器学习的预测效能造成不良的影响,数据较少的类别的预测相对不准确,进而还会产生一定的算法伦理问题,即 算法对少数种族或者少数性别的预测不如主要种族或者主要性别准确。

tidymodels的相关介绍网页中对这个问题做了一定的讨论,提出了几种做法:

  • 第一种是删除较少的类别,简单粗暴;
  • 第二种是合并,将较少的类别合并,比如合并为“other”类;
  • 第三种是使用某些指标来有效评估这种不平衡,并作为模型或模型参数选择的标准。tidymodels提供的相关指标是equal_opportunity(), equalized_odds(), and demographic_parity(),括号里给到单个预测变量,比如race,这几个指标的值越小,代表类别间平衡性好。

可以看到,以上做法都对模型的预测效果造成了破坏,模型将无法准确预测出删去或者合并的预测变量的类别的人群的结果。更多的挑战在于同一个数据集可能有多个变量同时存在不平衡的情况。

结论

目前所知的对于预测变量不平衡的讨论就这些,显然还需要进行更多的讨论,是目前预测模型构建的一个新的挑战。tidymodels对于不平衡预测变量的处理过程可以在和鲸社区链接中找到,一键运行。

  • 5
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

预测模型的开发与应用研究

文中代码请大家随意

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值