样本不平衡时,假如阳性样本组的样品数目约为阴性样本组的3倍。不通过建模而只是随机选择即可获得75%的正确率。而阴性样本组的预测准确率却很低。
通常,在生物和医学中,我们关注的是占少数的样本,如是否患病,我们希望能尽量发现可能存在的疾病,提前采取措施。
因此如何处理非平衡样品是每一个算法应用于分类问题时都需要考虑的。不平衡样本的模型构建中的影响主要体现在2个地方:
1、随机采样构建决策树时会有较大概率只拿到了样品多的分类,这些树将没有能力预测样品少的分类,从而构成无意义的决策树。
2、在决策树的每个分子节点所做的决策会倾向于整体分类纯度,因此样品少的分类对结果的贡献和影响少。
一般处理方式有下面4种:
1、Class weights: 样品少的类分类错误给予更高的罚分 (impose a heavier cost when errors are made in the minority class)
2、Down-sampling: 从样品多的类随机移除样品
3、Up-sampling: 在样品少的类随机复制样品 (randomly replicate instances in the minority class)
4、Synthetic minority sampling technique (SMOTE): 通过插值在样品少的类中合成填充样本
最容易实现的是2和3,本人更倾向于3,因为可以尽可能的多利用样本信息。
1是计算机方向常用方法,不过需要在代码中进行适当调整。
4是最难实现的,因为填充的值并不能代表真是的值,当你阳性样本少的时候,填充出来的阳性样本值并不一定准确。
这些权重加权或采样技术对阈值依赖的评估指标如准确性等影响较大,它们相当于把决策阈值推向了ROC曲线中的”最优位置” (这在Boruta特征变量筛选部分有讲)。但这些权重加权或采样技术对ROC曲线通常影响不会太大。
应用于自己的数据时,需要都尝试一下,看看自己的数据更适合哪种方式。
文章部分内容参考和转载自https://mp.weixin.qq.com/s/se3cpKSweHI3yr_HW5ZMgA
侵权请联系删除。