文本预处理 |(7)数据不平衡的处理

到了这一章,里面的东西就更看不懂了,所以这一节,就做一个简单的大纲,以后慢慢学习再慢慢完善

常见方法

1.改变性能评估方式

2.为模型添加特殊的惩罚/代价机制

3.数据重采样(Re-sampling)

4.合成样本

5.使用k-fold交叉验证

这个简单就是将原始数据划分为K个部分,选择其中一个作为测试数据集,剩余的作为训练数据集。交叉验证就是,将以上过程重复K次,最后取平均结果。

但是这个和处理数据不平衡有什么关系呢?

6.采用不同的分类器

 

最后作者说,对于不平衡数据的处理本身便是一个开放性问题,我们可以自己尝试自己的方法。

但是我的疑问是数据不平衡处理的目的是什么的,这样方法处理的原理又是什么的?

 

留待以后继续学习完善

面试总结

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值