数据质量管理_第三篇 不平衡数据处理(2)

1. 数据不平衡处理难点

不同数据类型的处理难度:
大 数 据 + 分 布 均 匀 < 大 数 据 + 分 布 不 均 衡 < 小 数 据 + 数 据 均 衡 < 小 数 据 + 数 据 不 均 衡 \color{blue}{大数据+分布均匀< 大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡} +<+<+<+

对于需求解决的问题:拿到数据后, 首 先 统 计 可 用 训 练 数 据 有 多 大 , \color{red}{首先统计可用训练数据有多大,} 然 后 再 观 察 数 据 分 布 情 况 。 \color{red}{然后再观察数据分布情况。}

2. 解决方案

一般而言,类别不平衡比例超过4:1,那么其分类器会大大地因为数据不平衡性而无法满足分类要求。
可供的解决方法:采样
将 数 据 集 中 样 本 较 多 的 那 一 类 称 为 “ 大 众 类 ” \color{red}{将数据集中样本较多的那一类称为“大众类”}
将 样 本 较 少 的 那 一 类 称 为 “ 小 众 类 ” \color{red}{将样本较少的那一类称为“小众类”}
上采样(oversampling):小众类复制多份
下采样(undersampling):从大众类中选取部分样本

3. 缺点

上采样:会反复出现一些样本,训练出来的模型会有一定的过拟合。
下采样:最终的训练集丢失了数据,模型只学到了总体模式的一部分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值