1. 数据不平衡处理难点
不同数据类型的处理难度:
大
数
据
+
分
布
均
匀
<
大
数
据
+
分
布
不
均
衡
<
小
数
据
+
数
据
均
衡
<
小
数
据
+
数
据
不
均
衡
\color{blue}{大数据+分布均匀< 大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡}
大数据+分布均匀<大数据+分布不均衡<小数据+数据均衡<小数据+数据不均衡
对于需求解决的问题:拿到数据后,
首
先
统
计
可
用
训
练
数
据
有
多
大
,
\color{red}{首先统计可用训练数据有多大,}
首先统计可用训练数据有多大,
然
后
再
观
察
数
据
分
布
情
况
。
\color{red}{然后再观察数据分布情况。}
然后再观察数据分布情况。
2. 解决方案
一般而言,类别不平衡比例超过4:1,那么其分类器会大大地因为数据不平衡性而无法满足分类要求。
可供的解决方法:采样
将
数
据
集
中
样
本
较
多
的
那
一
类
称
为
“
大
众
类
”
\color{red}{将数据集中样本较多的那一类称为“大众类”}
将数据集中样本较多的那一类称为“大众类”
将
样
本
较
少
的
那
一
类
称
为
“
小
众
类
”
\color{red}{将样本较少的那一类称为“小众类”}
将样本较少的那一类称为“小众类”
上采样(oversampling):小众类复制多份
下采样(undersampling):从大众类中选取部分样本
3. 缺点
上采样:会反复出现一些样本,训练出来的模型会有一定的过拟合。
下采样:最终的训练集丢失了数据,模型只学到了总体模式的一部分。