credit risk 预测建模 - try 1

本文介绍了使用WoE(证据权重)进行数据预处理和建模,以进行信用评分和风险评估。在Logistic回归模型中,通过IV检验筛选变量,最终通过逐步回归确定了关键影响因素,包括V15和V20。文章还提及了模型验证和Scorecards构建,但具体细节未展开。
摘要由CSDN通过智能技术生成

目标:信用评分,对个人借贷进行风险评估。 


一、数据预处理

 

导入数据

 

自变量-连续型

V2,V5,V8,V11,V13,V16,V18

自变量-分类型

V1,V3,V4,V6,V7,V9,V10,V12,V14,V15,V17,V19,V20

因变量y

V21

变量释义

https://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)

* 数据下载见:变量释义中的链接

 

R程序:

rawdata = read.table("D:/personal/knowledge/dataMining/dataset/german/german.data",header=F)

rawdata$y <- as.factor(rawdata$V21)

rawdata$V21 <- NULL

str(rawdata)

 

数据准备

 

训练数据

从总样本中抽样600条

验证数据

剩余的400条

 

R程序:

trainIdx <- sample(nrow(rawdata), round(0.6*nrow(rawdata)))

traindata <- rawdata[trainIdx,]

validdata <- rawdata[-trainIdx,]

 

1、数据清洗(data cleaning)

 

(1)缺失值处理(missingdata processing)

无缺失值。

 

(2)连续数据离散化(data discretization)

使用WoE进行离散化处理,见建模阶段处理。

 

(3)去噪声(noisy dataprocessing)

未有时间研究

 

(4)去异常值(outlierprocessing)

?

 

(5)共线性变量处理(pairwisecorrelations processing)

VIF (未有时间研究

 

2、数据集成(data integration)

单一数据来源,数据结构也一致。无需再集成。

 

3、数据变换(data transformation)

 

(1)规范化处理

使用WoE进行离散化处理,见建模阶段处理。

 

二、模型选择

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值