一、准备工作
(1)Imblearn安装
当遇到数据类别不平衡的时候,我们该如何处理。在Python中,有Imblearn包,它就是为处理数据比例失衡而生的。
安装Imblearn,默认是在python3.6版本及以上。在安装的时候注意要使用管理员的权限,否则可能会报错,如果是windows系统,要是用管理员方式打开cmd窗口,如果是linux环境,需要加上sudo
pip install imbalanced-learn
(2)创造类别不平衡数据集
from sklearn.datasets import make_classification
import matplotlib.pyplot as plt
#使用make_classification生成样本数据
X, y = make_classification(n_samples=5000,
n_features=2, # 特征个数= n_informative() + n_redundant + n_repeated
n_informative=2, # 多信息特征的个数
n_redundant=0, # 冗余信息,informative特征的随机线性组合
n_repeated=0, # 重复信息,随机提取n_informative和n_redundant 特征
n_classes=3, # 分类类别
n_clusters_per_class=1, # 某一个类别是由几个cluster构成的
weights=[0.01, 0.05, 0.94], # 列表类型,权重比
random_state=12)
数据可视化:
通过collections查看生成的数据中每个类别的数量分布,生成的5000个样本中类别0的有70个,类别1的有265个,类别2的有4665个。
from collections import Counter
print(Counter(y))
plt.scatter(X[:, 0], X[:, 1], c=y)
plt.show()
二、过采样方法
对训练集里的少数类进行“过采样”(oversampling),即增加一些少数类样本使得正、反例数目接近,然后再进行学习。
(2)随机过采样方法
通过代码实现随机过采样:
# 使用imblearn进行随机过采样
from imblearn.over_sampling import RandomOverSampler
ros = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ros.fit_resample(X, y)
#查看结果
print(Counter(y_resampled))
#过采样后样本结果
# Counter({2: 4674, 1: 4674, 0: 4674})
# 数据集可视化
plt.scatter(X_resampled[:, 0], X_resampled[:, 1], c=y_resampled)
plt.show()
从数据可视化的图中的紫色点变得粗,这就是随机复制采样的结果。
缺点:
- 对于随机过采样,由于需要对少数类样本进行复制来扩大数据集,造成模型训练复杂度加大。
- 另一方面也容易造成模型的过拟合问题,因为随机过采样是简单的对初始样本进行复制采样,这就使得学习器学得的规则过于具体化,不利于学习器的泛化性能,造成过拟合问题。
(2)过采样代表性算法-SMOTE
# SMOTE过采样
from imblearn.over_sampling import SMOTE
X_resampled, y_resampled = SMOTE().fit_resample(X, y)
Counter(y_resampled)
# 采样后样本结果
# [(0, 4674), (1, 4674), (2, 4674)]
# 数据集可视化
plt.scatter(X_resampled[:, 0], X_resampled[:, 1], c=y_resampled)
plt.show()
三、欠采样方法
直接对训练集中多数类样本进行“欠采样”(undersampling),即去除一些多数类中的样本使得正例、反例数目接近,然后再进行学习。
(1)随机欠采样方法
代码实现:
# 随机欠采样
from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler(random_state=0)
X_resampled, y_resampled = rus.fit_resample(X, y)
Counter(y_resampled)
# 采样后结果
[(0, 64), (1, 64), (2, 64)]
# 数据集可视化
plt.scatter(X_resampled[:, 0], X_resampled[:, 1], c=y_resampled)
plt.show()
缺点:
- 随机欠采样方法通过改变多数类样本比例以达到修改样本分布的目的,从而使样本分布较为均衡,但是这也存在一些问题。对于随机欠采样,由于采样的样本集合要少于原来的样本集合,因此会造成一些信息缺失,即将多数类样本删除有可能会导致分类器丢失有关多数类的重要信息。