到了这一章,里面的东西就更看不懂了,所以这一节,就做一个简单的大纲,以后慢慢学习再慢慢完善
常见方法
1.改变性能评估方式
2.为模型添加特殊的惩罚/代价机制
3.数据重采样(Re-sampling)
4.合成样本
5.使用k-fold交叉验证
这个简单就是将原始数据划分为K个部分,选择其中一个作为测试数据集,剩余的作为训练数据集。交叉验证就是,将以上过程重复K次,最后取平均结果。
但是这个和处理数据不平衡有什么关系呢?
6.采用不同的分类器
最后作者说,对于不平衡数据的处理本身便是一个开放性问题,我们可以自己尝试自己的方法。
但是我的疑问是数据不平衡处理的目的是什么的,这样方法处理的原理又是什么的?
留待以后继续学习完善