信用卡违约用户分析-SGD分类

本文参与了DataFountain的逾期行为预测竞赛,利用某银行真实信贷数据进行信用卡违约分析。数据集中没有缺失值,处理时将分类变量转化为数值型,并通过SGD分类器进行建模。由于正样本比例较低,选择了PR曲线评估模型,发现阈值设为0.8时效果最佳。后续计划尝试更多模型如逻辑回归、SVM和GBRT,并采用投票分类器优化模型性能。
摘要由CSDN通过智能技术生成

在DataFountain平台上的用户逾期行为预测竞赛项目。数据来源于某银行公布的网上公开数据集,为银行真实信贷用户信息,应用于信用逾期预测、信用卡评分等业务场景。

import pandas as pd 
import numpy as np
data=pd.read_csv('C:/Users/luoyang/Desktop/信用卡逾期分析/train.csv',\
index_col='CUST_ID',iterator=True)
#csv文件接近500M,全部读入内存不够,iterator参数允许我们读取前N行。
df=data.get_chunk(30000)
#实际上应该设置chunksize参数,然后使用for循环依次训练模式,可以减小内存损耗

在这里插入图片描述
没有缺失数据。
在这里插入图片描述
发现只有int、float64、object三种
在这里插入图片描述
将object列的名称添加入n中,然后查询object列中所有的字段。
在这里插入图片描述
清洗数据,将表达的N,Y,X分别赋值为0,1,2.

在这里插入图片描述
查看一下分类的比例,发现真逾期人员的比例占比为6%左右

X=df.drop(columns='个贷是否逾期').values
y=df.values[:,3
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值