如何解决二分类中的样本不平衡问题

在二分类任务中,样本不平衡可能导致模型效果不佳。当类别1样本数为5000,类别0仅为100时,通过实例操作,介绍如何处理这种不平衡数据。模型评估采用F-Measure指标,强调特征选择的重要性,如ID这类与目标变量相关性低的特征可剔除。
摘要由CSDN通过智能技术生成

在搭建模型时,二分类中,经常会遇到目标变量的分类数量相差很大,比如分类是1的数量是5000,分类是0的数量是100,这样如果对数据的不平衡性不做处理,模型的效果也会很差。今天用一个案例来进行实操:

1、案例目的:
找出有资金需求的中小企业借贷户并销售其贷款产品
2、背景:
对于中小企业而言,要快速成长最需要的就是资金。若能找出这些有资金需求的中小企业公司户并销售其贷款产品,将能为银行带来不少的营收,并改善中小企业的经营。
3、数据说明
训练数据包含26,144笔客户资料;每笔客户资料包含26个字段(1个客户ID字段、24个输入字段及1个目标字段-VV(是否为SME公司户;1代表有资金需求的中小企业公司户,0则代表没有资金需求的中小企业公司户)。
![每个字段的含义如图]
(https://img-blog.csdnimg.cn/fd912d79e0634a9c819e03772516aa81.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAYnJ1Y2VsaW5fMTg4,size_20,color_FFFFFF,t_70,g_se,x_16)
 需要说明一下area:区域代码第1码为大分类, 第1+2码为中分类, 依此类推

测试数据包含6,537笔客户资料;字段个数与训练数据相同,只有目标字段的值全部填“Withheld”。
建立一个分类预测模型,找出有资金需求的中小企业借贷户,并输出一个测试结果的档案(考生姓名_results.csv)。考生姓名_results.csv中只有两个字段,分别是客户ID以及预测客户是否是有资金需求的中小企业公司户。3.results.csv的形式如下:

ID,Predicted_Results
1,1
2,0
8,0
4、模型评估方式:
F-Measure,值越大越好

#导入第三方包
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity='all'
from scipy import stats
import pandas as pd
import numpy as np
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.multicomp import pairwise_tukeyhsd
import matplotlib.pyplot as plt
#导入数据
df_train = pd.read_csv('Training.csv')
#探查数据,数据总计26144行,每个字段的数据类型如下,
df_train.info() 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26144 entries, 0 to 26143
Data columns (total 26 columns):
ID               26144 non-null int64
area             24423 non-null object
ck               24503 non-null object
ck-saveall       24504 non-null object
ck-drawall       24449 non-null object
ck-savetime      24518 non-null object
ck-drawtime      24495 non-null object
ck-saveavg       24485 non-null object
ck-drawavg       24454 non-null object
ck-avg           24512 non-null object
dep-saveall      24572 non-null object
dep-drawall      24471 non-null object
dep-savetime     24546 non-null object
dep-drawtime     24370 non-null object
depsaveavg       24482 non-null object
depdrawavg       24426 non-null object
dep-avg          24498 non-null object
dep-9201         24504 non-null object
fed-9201         24510 non-null object
fed-avg          
  • 1
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值