信用卡违约客户的预测模型的选择(二)验证过程

验证过程

该数据集包含23个输入变量(input variable)和一个响应变量(response variable)。该数据集来源于UCI machine learning repository,为某银行的信用卡客户信息数据,共有30000个样本,包括过去六个月的账单还款情况。

 

Y:下个月还款违约情况(1=逾期,0=未逾期)

X1:信用额度,包括其个人和家庭补充信用。

X2:性别(1=male;2=female)

X3:教育(1=研究生,2=大学,3=高中,4=其他)

X4:婚姻状况(1=已婚,2=单身,3=其他)

X5:年龄,age

X6-X11:过去六个月的还款情况。X6(2005年九月还款情况)。。。X11(2005年四月还款情况)。其中XN=-1,代表按时还款,XN=1,代表延时一个月还款,XN=2,代表延时两个月还款,。。。,XN=n,代表延时n个月还款,

X12-X17:过去六个月的账单数额情况。X12(2005年九月账单数额情况)…X11(2005年四月账单数额情况)。

X18-X23:过去六个月的还款数额情况。X18(2005年九月还款数额情况)…X23(2005年四月还款数额情况)。

环境配置

操作系统:windows7+64位

内存:4G

Cpu: intel core i5@2.6GHz2.6GHz

Python version: python 3.6.0

Python平台:pycharm


首先获取数据,将原始csv文件转化为txt文件,逐行读取数据,为利于后期回归运算将变量格式的数据统一转化为float格式。在变量选取中我们本着类别变量均等,训练矩阵随机,训练与测试矩阵28原则。

如下:

float(listFromLine[i])

分别定义标签矩阵和变量矩阵,读入客户数据。

此模型预测变量为01。其中类别为1的变量6636个,类别为0的变量23364个。我们选择相等的两类样本数01分别

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值