SAS 二元逻辑回归 预测下月是否会消费

1 篇文章 0 订阅

数据集来自 UCI

UCI_Credit_Card.csv

数据集信息

此数据集包含有关2005年4月至2005年9月台湾地区信用卡客户的默认付款,人口统计因素,信用数据,付款历史和账单的信息。

内容

有25个变量:

ID:每个客户的ID

LIMIT_BAL:以新台币计的给定信用额度(包括个人和家庭/辅助信用额)

性别:性别(1 =男性,2 =女性)

教育程度:(1 =研究生院,2 =大学,3 =高中,4 =其他,5 =未知,6 =未知)

婚姻:婚姻状况(1 =已婚,2 =单,3 =其他)

年龄:岁

PAY_0:2005年9月的还款状态(-1 =正常付款,1 =延迟一个月的付款,2 =延迟两个月的付款,... 8 =延迟八个月的付款,9 =延迟九个月的付款,以及以上)

PAY_2:2005年8月的还款状态(与上述相同)

PAY_3:2005年7月的还款状态(与上述相同)

PAY_4:2005年6月的还款状态(与上述金额相同)

PAY_5:2005年5月的还款状态(与上述相同)

PAY_6:2005年4月的还款状态(与上述相同)

BILL_AMT1:2005年9月的帐单金额(新台币)

BILL_AMT2:2005年8月的帐单金额(新台币)

BILL_AMT3:2005年7月的帐单金额(新台币)

BILL_AMT4:2005年6月的帐单金额(新台币)

BILL_AMT5:2005年5月的对帐单金额(新台币)

BILL_AMT6:2005年4月的帐单金额(新台币)

PAY_AMT1:2005年9月的先前付款金额(新台币)

PAY_AMT2:2005年8月的先前付款金额(新台币)

PAY_AMT3:2005年7月的先前付款金额(新台币)

PAY_AMT4:2005年6月的先前付款金额(新台币)

PAY_AMT5:2005年5月的先前付款金额(新台币)

PAY_AMT6:2005年4月的先前付款金额(新台币)

default.payment.next.month:默认付款(1 =是,0 =否)

 

SAS 环境:SAS STUDIO大学版

首先对数据进行数据描述,得到大致的数据概况。然后对缺失值处理

然后对数据进行归一化,这里用到的是STUDIO 的标准化模块

 

 

使用任务模块的二元逻辑回归

导入相应的预测值,分类变量,以及归一化完的数值连续变量

使用了默认的建模参数

 

然后输出模型结果:

 
模型信息
数据集WORK.STDIZE
响应变量default_payment_next_month
响应水平数2
模型二元 Logit
优化方法Fisher 评分法
 
读取的观测数30000
使用的观测数30000
 
响应概略
有序
default_payment_next_month
频数
1023364
216636

建模的概率为 default_payment_next_month='1'。

 
分类水平信息
分类设计变量
SEX110     
 201     
EDUCATION01000000
 10100000
 20010000
 30001000
 40000100
 50000010
 60000001
MARRIAGE01000   
 10100   
 20010   
 30001   
 
模型收敛状态
满足收敛准则 (GCONV=1E-8)。
 
模型拟合统计量
准则仅截距截距和协变量
AIC31707.35427889.258
SC31715.66328146.835
-2 Log L31705.35427827.258
 
检验全局原假设: BETA=0
检验卡方自由度Pr > 卡方
似然比3878.096730<.0001
评分3749.817430<.0001
Wald3061.829930<.0001
 
3 型效应分析
效应自由度Wald
卡方
Pr > 卡方
SEX113.41410.0002
EDUCATION641.4162<.0001
MARRIAGE335.5147<.0001
Standardized_PAY_011063.4129<.0001
Standardized_PAY_2116.2970<.0001
Standardized_PAY_319.94610.0016
Standardized_PAY_410.80930.3683
Standardized_PAY_511.63490.2010
Standardized_PAY_610.09680.7557
Standardized_BILL_AM123.4764<.0001
Standardized_BILL_AM12.57030.1089
Standardized_BILL_AM11.03330.3094
Standardized_BILL_AM10.01080.9172
Standardized_BILL_AM10.24910.6177
Standardized_BILL_AM10.02670.8701
Standardized_PAY_AMT135.0031<.0001
Standardized_PAY_AMT120.6781<.0001
Standardized_PAY_AMT12.36340.1242
Standardized_PAY_AMT15.18930.0227
Standardized_PAY_AMT13.27590.0703
Standardized_PAY_AMT12.60110.1068
AGE18.32490.0039
LIMIT_BAL119.6728<.0001
 
最大似然估计分析
参数 自由度估计标准
误差
Wald
卡方
Pr > 卡方
Intercept 1-1.79130.433217.0983<.0001
SEX110.11250.030713.41410.0002
SEX200...
EDUCATION01-9.567585.23950.01260.9106
EDUCATION110.30250.40350.56190.4535
EDUCATION210.21790.40310.29240.5887
EDUCATION310.19610.40380.23580.6273
EDUCATION41-0.84480.56422.24180.1343
EDUCATION51-1.06070.47474.99250.0255
EDUCATION600...
MARRIAGE01-1.24060.53295.41960.0199
MARRIAGE110.07880.13730.32880.5664
MARRIAGE21-0.11020.13880.63010.4273
MARRIAGE300...
Standardized_PAY_0 10.64910.01991063.4129<.0001
Standardized_PAY_2 10.09760.024216.2970<.0001
Standardized_PAY_3 10.08540.02719.94610.0016
Standardized_PAY_4 10.02630.02920.80930.3683
Standardized_PAY_5 10.03900.03051.63490.2010
Standardized_PAY_6 10.007930.02550.09680.7557
Standardized_BILL_AM 1-0.40600.083823.4764<.0001
Standardized_BILL_AM 10.17170.10712.57030.1089
Standardized_BILL_AM 10.09330.09181.03330.3094
Standardized_BILL_AM 1-0.009040.08690.01080.9172
Standardized_BILL_AM 10.04610.09250.24910.6177
Standardized_BILL_AM 10.01160.07110.02670.8701
Standardized_PAY_AMT 1-0.22600.038235.0031<.0001
Standardized_PAY_AMT 1-0.21870.048120.6781<.0001
Standardized_PAY_AMT 1-0.04650.03022.36340.1242
Standardized_PAY_AMT 1-0.06370.02805.18930.0227
Standardized_PAY_AMT 1-0.04910.02713.27590.0703
Standardized_PAY_AMT 1-0.03720.02312.60110.1068
AGE 10.005370.001868.32490.0039
LIMIT_BAL 1-7E-71.578E-719.6728<.0001
 
优比估计
效应点估计95% Wald
置信限
SEX 2-11.1191.0541.189
EDUCATION 6-0<0.001<0.001>999.999
EDUCATION 6-11.3530.6142.985
EDUCATION 6-21.2440.5642.740
EDUCATION 6-31.2170.5512.684
EDUCATION 6-40.4300.1421.298
EDUCATION 6-50.3460.1370.878
MARRIAGE 3-00.2890.1020.822
MARRIAGE 3-11.0820.8271.416
MARRIAGE 3-20.8960.6821.176
Standardized_PAY_01.9141.8411.990
Standardized_PAY_21.1031.0521.156
Standardized_PAY_31.0891.0331.148
Standardized_PAY_41.0270.9691.087
Standardized_PAY_51.0400.9791.104
Standardized_PAY_61.0080.9591.060
Standardized_BILL_AM0.6660.5650.785
Standardized_BILL_AM1.1870.9631.465
Standardized_BILL_AM1.0980.9171.314
Standardized_BILL_AM0.9910.8361.175
Standardized_BILL_AM1.0470.8741.255
Standardized_BILL_AM1.0120.8801.163
Standardized_PAY_AMT0.7980.7400.860
Standardized_PAY_AMT0.8040.7310.883
Standardized_PAY_AMT0.9550.9001.013
Standardized_PAY_AMT0.9380.8880.991
Standardized_PAY_AMT0.9520.9031.004
Standardized_PAY_AMT0.9630.9211.008
AGE1.0051.0021.009
LIMIT_BAL1.0001.0001.000
 
预测概率和观测响应的关联
一致部分所占百分比72.6Somers D0.452
不一致部分所占百分比27.4Gamma0.452
结值百分比0.0Tau-a0.156
155043504c0.726
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
背景描述 本项目采用了UCI数据仓库,这是一个自1970年代期以来广泛使用的公认资源。它在学术界享有盛誉,因其数据集涵盖了从生物信息学到社科学等多个领域的真实世界问题,确保了研究成果的实用性和相关性。我们可以通过 Python 的 ucimlrepo 库直接访问这些数据集,这样显著提高了数据获取的效率,简化了预处理流程,从而让我们能够迅速投入到实证分析去。 而且还有还很重要的一点:该数据集的普及性和熟悉度为我们的研究提供了一个共同的基准,使得方法论的通用性和比较性得到加强。同时,数据的真实性和可复刻性也为项目带来了额外的价值。我们的分析不仅可以由同行学者验证,而且还可以促进知识的积累,为未来的科学探索提供基石。这种方法论和数据来源的选择可以确保你的项目或者算法能够在数据科学界得到广泛的认可和应用。 数据说明 这份数据是 uci 数据仓库的 Default of credit card clients 数据集。读取方法可以参考我的相关项目。 该数据集包含 30,000 名客户及其在台湾一家银行的信用卡交易数据。除了客户的静态特征外,该数据集还包含某年4至9的信用卡账单支付历史,以及客户信用卡的余额限制。目标是客户是否在接下来的一个,即该年10拖欠信用卡付款。 ID:信用卡客户ID号 LIMIT_BAL:以新台币计算的信贷金额(包括个人和家庭/补充信贷)/ 信用卡限额 SEX: 性别 (1代表男性,2代表女性) EDUCATION:受 教育程度(1=研究生, 2=大学, 3=高, 4=其他 5=未知, 6=未知) MARRIAGE:婚姻状况(1=已婚,2=单身,3=其他) AGE:年龄 X1:信用额度,包括其个人和家庭补充信用 X2:性别(1=male;2=female) X3:教育(1=研究生,2=大学,3=高,4=其他) X4:婚姻状况(1=已婚,2=单身,3=其他) X5:年龄,age X6-X11:过去六个还款情况。X6-X11为9-4还款情况。其,-1,代表按时还款;1,代表延时一个还款;2,代表延时两个还款.......依次类推,XN=n,代表延时n个还款, X12-X17:过去六个的账单数额情况。X12-X17为9-4账单数额情况 X18-X23:过去六个还款数额情况。 X18-X23为9-4还款数额情况 Y:目标属性,客户下个还款违约情况(1=逾期,0=未逾期) 通常用于分类模型,应用场景十分广泛。尤其适用于金融机构在风险评估和信贷审批过程,以判断客户是否有资格获得其他贷款产品,例如汽车贷款。通过包含的23个输入变量,如信用额度、性别、教育程度等,以及目标变量,即客户的还款违约情况,研究者能够对信用风险进行准确评估。这些细致的数据为研究者提供了理解和预测客户行为的全面视角。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值