验证过程
该数据集包含23个输入变量(input variable)和一个响应变量(response variable)。该数据集来源于UCI machine learning repository,为某银行的信用卡客户信息数据,共有30000个样本,包括过去六个月的账单还款情况。
Y:下个月还款违约情况(1=逾期,0=未逾期)
X1:信用额度,包括其个人和家庭补充信用。
X2:性别(1=male;2=female)
X3:教育(1=研究生,2=大学,3=高中,4=其他)
X4:婚姻状况(1=已婚,2=单身,3=其他)
X5:年龄,age
X6-X11:过去六个月的还款情况。X6(2005年九月还款情况)。。。X11(2005年四月还款情况)。其中XN=-1,代表按时还款,XN=1,代表延时一个月还款,XN=2,代表延时两个月还款,。。。,XN=n,代表延时n个月还款,
X12-X17:过去六个月的账单数额情况。X12(2005年九月账单数额情况)…X11(2005年四月账单数额情况)。
X18-X23:过去六个月的还款数额情况。X18(2005年九月还款数额情况)…X23(2005年四月还款数额情况)。
环境配置
操作系统:windows7+64位
内存:4G
Cpu: intel core i5@2.6GHz2.6GHz
Python version: python 3.6.0
Python平台:pycharm
首先获取数据,将原始csv文件转化为txt文件,逐行读取数据,为利于后期回归运算将变量格式的数据统一转化为float格式。在变量选取中我们本着类别变量均等,训练矩阵随机,训练与测试矩阵28原则。
如下:
float(listFromLine[i])
分别定义标签矩阵和变量矩阵,读入客户数据。
此模型预测变量为0或1。其中类别为1的变量6636个,类别为0的变量23364个。我们选择相等的两类样本数0和1分别