调权重的结果和人工合成数据的结果

最新推荐文章于 2019-10-24 17:06:41 发布

冠亚和值小184qq747987111

最新推荐文章于 2019-10-24 17:06:41 发布

阅读量826

点赞数

本文链接：https://blog.csdn.net/qq_38459897/article/details/81480027

版权

非平衡数据可能导致模型过拟合，文章探讨了欠采样、过采样和人工合成数据以及调权重等方法处理非平衡数据，以提升模型的准确性和公平性。实验结果显示，人工合成数据和调权重方法表现最佳，而欠采样效果相对较差。

摘要由CSDN通过智能技术生成

非平衡数据会影响最后的评判效果，严重的会带来过拟合的效果，即模型总是把样本划分到样本量较多的那一种。为了让模型的评判更准确，我们需要对非平衡数据进行一定的处理，主要有以下几种方式：

在开始介绍不同的处理方式之前，我们先引入一组非平衡数据。

#导入一些相关库
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.metrics import roc_curve, auc
from sklearn.preprocessing import scale
#导入数据
df=pd.read_excel(r"C:\Users\zhangjunhong\Desktop\Unbanlanced-data.xlsx").fillna(0)

看一下正负样本的具体数据量情况。

该数据量的正负样本比例接近7:3，我们看一下不做任何处理的情况下，模型的预测效果如何。

#将模型进行封装，方便调用
def get_result_data(x,y):
x_=scale(x,with_mean=True,with_std=True)
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.4,random_state=0)
model=LogisticRegression()
clf=model.fit(x_train,y_train)
print("LR模型测试成绩:{:.2f}".format(clf.score(x_test,y_test)))
y_pred

关注