目标:信用评分,对个人借贷进行风险评估。
一、数据预处理
导入数据
自变量-连续型 |
V2,V5,V8,V11,V13,V16,V18 |
自变量-分类型 |
V1,V3,V4,V6,V7,V9,V10,V12,V14,V15,V17,V19,V20 |
因变量y |
V21 |
变量释义 |
https://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data) |
* 数据下载见:变量释义中的链接
R程序:
rawdata = read.table("D:/personal/knowledge/dataMining/dataset/german/german.data",header=F) rawdata$y <- as.factor(rawdata$V21) rawdata$V21 <- NULL str(rawdata) |
数据准备
训练数据 |
从总样本中抽样600条 |
验证数据 |
剩余的400条 |
R程序:
trainIdx <- sample(nrow(rawdata), round(0.6*nrow(rawdata))) traindata <- rawdata[trainIdx,] validdata <- rawdata[-trainIdx,] |
1、数据清洗(data cleaning)
(1)缺失值处理(missingdata processing)
无缺失值。
(2)连续数据离散化(data discretization)
使用WoE进行离散化处理,见建模阶段处理。
(3)去噪声(noisy dataprocessing)
(未有时间研究)
(4)去异常值(outlierprocessing)
?
(5)共线性变量处理(pairwisecorrelations processing)
VIF (未有时间研究)
2、数据集成(data integration)
单一数据来源,数据结构也一致。无需再集成。
3、数据变换(data transformation)
(1)规范化处理
使用WoE进行离散化处理,见建模阶段处理。
二、模型选择