credit risk 预测建模 - try 1

最新推荐文章于 2021-06-26 16:36:17 发布

textboy

最新推荐文章于 2021-06-26 16:36:17 发布

阅读量3k

点赞数

分类专栏： DataAnalysis 文章标签：信用评分 logistic WoE Scorecards 风险

本文链接：https://blog.csdn.net/textboy/article/details/46972787

版权

本文介绍了使用WoE（证据权重）进行数据预处理和建模，以进行信用评分和风险评估。在Logistic回归模型中，通过IV检验筛选变量，最终通过逐步回归确定了关键影响因素，包括V15和V20。文章还提及了模型验证和Scorecards构建，但具体细节未展开。

摘要由CSDN通过智能技术生成

目标：信用评分，对个人借贷进行风险评估。

一、数据预处理

导入数据

自变量-连续型	V2,V5,V8,V11,V13,V16,V18
自变量-分类型	V1,V3,V4,V6,V7,V9,V10,V12,V14,V15,V17,V19,V20
因变量y	V21
变量释义	https://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)

* 数据下载见：变量释义中的链接

R程序：

rawdata = read.table("D:/personal/knowledge/dataMining/dataset/german/german.data",header=F)

rawdata$y <- as.factor(rawdata$V21)

rawdata$V21 <- NULL

str(rawdata)

数据准备

训练数据	从总样本中抽样600条
验证数据	剩余的400条

R程序：

trainIdx <- sample(nrow(rawdata), round(0.6*nrow(rawdata)))

traindata <- rawdata[trainIdx,]

validdata <- rawdata[-trainIdx,]

1、数据清洗（data cleaning）

（1）缺失值处理（missingdata processing）

无缺失值。

（2）连续数据离散化（data discretization）

使用WoE进行离散化处理，见建模阶段处理。

（3）去噪声（noisy dataprocessing）

（未有时间研究）

（4）去异常值（outlierprocessing）

（5）共线性变量处理（pairwisecorrelations processing）

VIF （未有时间研究）

2、数据集成（data integration）

单一数据来源，数据结构也一致。无需再集成。

3、数据变换（data transformation）

（1）规范化处理

使用WoE进行离散化处理，见建模阶段处理。

二、模型选择

最低0.47元/天解锁文章

关注

专栏目录