第七章逻辑回归 - 非均衡数据

最新推荐文章于 2024-01-08 01:28:26 发布

喝醉酒的小白

最新推荐文章于 2024-01-08 01:28:26 发布

阅读量3.6k

点赞数

分类专栏：应用回归分析-俞昊东

本文链接：https://blog.csdn.net/hezuijiudexiaobai/article/details/104785728

版权

应用回归分析-俞昊东专栏收录该内容

13 篇文章 6 订阅

订阅专栏

非均衡性问题

0导入相关库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn import metrics # 评估
from sklearn.linear_model import LogisticRegression

1 加载数据

码云

df=pd.read_csv('Regression/Regression7/imbalance.csv',header=None)

df.columns = ["x1", "x2","y"]
features=["x1","x2"]
labels = ["y"]

df.info()
# df.sample(frac=0.05) # 随机取样（分数 四舍五入）
df.sample(n=5) # 5行

在这里插入图片描述

2 不调整权重

model = LogisticRegression(C=1e4)
model.fit(df[features], df[labels])

在这里插入图片描述

2.1 分类概率

prob = model.predict_proba(df[features])
pd.DataFrame(prob)

在这里插入图片描述

2.2 分类汇总情况

pred = model.predict(df[features])
print(metrics.classification_report(df['y'], pred))

在这里插入图片描述

2.3 混淆矩阵

Matplotlib 中文显示设置

confusion = metrics.confusion_matrix(df['y'], pred)
confusion

在这里插入图片描述

plt.matshow(confusion)
plt.title('混淆矩阵')
plt.colorbar() 
plt.ylabel('预测')
plt.xlabel('实际')
plt.show()

在这里插入图片描述

3 加权方法#1

使用比例的倒数手动调节权重

y=df['y']
positiveWeight = len(y[y>0]) / float(len(df['y']))
classWeight = {1: 1. / positiveWeight, 0: 1. / (1 - positiveWeight)}

为了消除惩罚项的干扰，将惩罚系数设为很大

3.1 分类汇总情况

model1 = LogisticRegression(class_weight=classWeight, C=1e4)
model1.fit(df[features], df[labels])
pred1 = model1.predict(df[features])
pred1 = pd.DataFrame(pred1)
print(metrics.classification_report(df['y'], pred1))

在这里插入图片描述

3.2 混淆矩阵

metrics.confusion_matrix(df['y'], pred1)

在这里插入图片描述

plt.matshow(metrics.confusion_matrix(df['y'], pred1))
plt.title('混淆矩阵')
plt.colorbar() 
plt.ylabel('预测')
plt.xlabel('实际')
plt.show()

在这里插入图片描述

4 加权方法#2

balanced方法

4.1 分类汇总情况

model2 = LogisticRegression(class_weight='balanced', C=1e4)
model2.fit(df[features], df[labels])
pred2=model2.predict(df[features])
pred2=pd.DataFrame(pred2)
print(metrics.classification_report(df['y'],pred2))

在这里插入图片描述

4.2 混淆矩阵

metrics.confusion_matrix(df['y'],pred2)

在这里插入图片描述

plt.matshow(metrics.confusion_matrix(df['y'], pred2))
plt.title('混淆矩阵')
plt.colorbar() 
plt.ylabel('预测')
plt.xlabel('实际')
plt.show()

在这里插入图片描述

喝醉酒的小白

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

第七章 逻辑回归 - 非均衡数据

非均衡性问题

0导入相关库

1 加载数据

2 不调整权重

2.1 分类概率

2.2 分类汇总情况

2.3 混淆矩阵

3 加权方法#1

3.1 分类汇总情况

3.2 混淆矩阵

4 加权方法#2

4.1 分类汇总情况

4.2 混淆矩阵

第七章逻辑回归 - 非均衡数据