调整阈值、过采样和欠采样

最新推荐文章于 2024-03-19 20:46:10 发布

Kyrie_Irving

最新推荐文章于 2024-03-19 20:46:10 发布

阅读量1.6k

点赞数

本文链接：https://blog.csdn.net/Kyrie_Irving/article/details/90032804

版权

样本中类别的数量不均衡
样本有100条数据，其中正类有99条，负类1条
训练过程模型把所有样本都分为正类，虽然负类分错了，但损失很小，精度达到了99%，模型不必再训练下去，这样得到精度高达99%的模型，但却区分不了负类，没有实际意义，我们在训练中样本中各个类别的样本数量越平衡越好
1、调整阈值
预测样本类别时一般要求计算样本属于某一类别的概率，例如计算正类的概率，通常取阈值为0.5，（即认为样本属于正例的概率大于0.5为正例，小于0.5样本为负例），但若样本数据本身是不均衡的数据，应该根据正负样本的比例调整阈值，而不再固定为0.5
2、欠采样
从样本量多的类别中随机抽取部分数据和样本量小的类别组合形成新的数据集，即减少样本量最大的类别的数量。
实际应用中常常多次抽取，每次抽取组合的数据训练成一个模型，最终结果通过综合多个模型来确定。但这一方法损失了一些数据信息，并且改变了数据的原始分布，精度可能有所降低，适用于数据量很大的情况
3.过采样
通过SMOTE算法增加样本量小的类别的数据使样本类别达到平衡，但这一方法容易达成过拟合，实际应用中搭配正则化以防止过拟合

from imblearn.over_sampling import SMOTE

x_data = data.iloc[:,0:24]
y_data = data.iloc[:,24]
model_smote = SMOTE()
x_smote, y_smote = model_smote.fit_sample(x_data,y_data)
x_smote = pd.DataFrame(x_smote)
 y_smote = pd.Series(y_smote)
 
x_train,x_test,y_train,y_test = train_test_split(x_smote,y_smote,test_size=0.2)

Kyrie_Irving

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
调整阈值、过采样和欠采样

样本中类别的数量不均衡样本有100条数据，其中正类有99条，负类1条训练过程模型把所有样本都分为正类，虽然负类分错了，但损失很小，精度达到了99%，模型不必再训练下去，这样得到精度高达99%的模型，但却区分不了负类，没有实际意义，我们在训练中样本中各个类别的样本数量越平衡越好1、调整阈值预测样本类别时一般要求计算样本属于某一类别的概率，例如计算正类的概率，通常取阈值为0.5，（即认为样本属...
复制链接

扫一扫