1.数据说明
本案例是基于一份汽车贷款违约数据建立的申请评分卡模型,表 1-1 对数据集中的变量进行简要说明,并给出数据清洗策略。其中是否违约 bad_ind 是因变量
表 1-1 数据集变量的简要说明
字段名 | 中文含义 | 数据清洗策略 |
---|
application_id | 申请者ID | |
account_number | 帐户号 | |
bad_ind | 是否违约(因变量) | |
vehicle_year | 汽车购买时间 | 0代表缺失,使用适合众数填补 |
vehicle_make | 汽车制造商 | 空白代表缺失,使用适合众数填补或单独分类 |
bankruptcy_ind | 曾经破产标识 | 空白代表缺失,使用适合众数填补或单独分类 |
tot_derog | 五年内信用不良事件数量(比如手机欠费消号) | 缺失代表无记录,使用适合中位数填补 |
tot_tr | 全部帐户数量 | 缺失代表系统内无记录,应该使用total open trade lines+两变量差值的均值 |
age_oldest_tr | 最久账号存续时间(月) | 缺失代表系统内无记录,使用均值或中位数填补 |
tot_open_tr | 在使用帐户数量 | 缺失代表系统内无记录,应该使用total open revolving trade lines+两变量差值的均值 |
tot_rev_tr | 在使用可循环贷款帐户数量(比如信用卡) | 缺失代表系统内无记录,使用均值或中位数填补 |
tot_rev_debt | 在使用可循环贷款帐户余额(比如信用卡欠款) | |
tot_rev_line | 可循环贷款帐户限额(信用卡授权额度) | |
rev_util | 可循环贷款帐户使用比例(余额/限额) | |
fico_score | FICO打分 | 缺失代表系统内无记录,使用均值或中位数填补 |
purch_price | 汽车购买金额(元) | |
msrp | 建议售价 | 0代表缺失,使用适合按照汽车制造商进行均值填补 |
down_pyt | 分期付款的首次交款 | |
loan_term | 贷款期限(月) | |
loan_amt | 贷款金额 | |
ltv | 贷款金额/建议售价*100 | |
tot_income | 月均收入(元) | |
veh_mileage | 行使历程(Mile) | |
used_ind | 是否二手车 | |
2. 拒绝推断(RI)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
变量属性 | 变量名 | 含义 | accepts | rejects |
缺失数量 | 缺失率 | 缺失数量 | 缺失率 |
数值型 | application_id | 申请者ID | 0 | 0% | 0 | 0% |
account_number | 帐户号 | 0 | 0% | - | - |
bad_ind | 是否违约(因变量) | 0 | 0% | - | - |
vehicle_year | 汽车购买时间 | 1 | 0% | 1 | 0% |
bankruptcy_ind | 曾经破产标识 | 217 | 4% | 155 | 4% |
tot_derog | 五年内信用不良事件数量(比如手机欠费消号) | 213 | 4% | 133 | 3% |
tot_tr | 全部帐户数量 | 214 | 4% | 133 | 3% |
age_oldest_tr | 最久账号存续时间(月) | 216 | 4% | 134 | 3% |
tot_open_tr | 在使用帐户数量 | 1419 | 32% | 998 | 31% |
tot_rev_tr | 在使用可循环贷款帐户数量(比如信用卡) | 638 | 12% | 445 | 12% |
tot_rev_debt | 在使用可循环贷款帐户余额(比如信用卡欠款) | 478 | 9% | 330 | 8% |
tot_rev_line | 可循环贷款帐户限额(信用卡授权额度) | 478 | 9% | 330 | 8% |
rev_util | 可循环贷款帐户使用比例(余额/限额) | 0 | 0% | 0 | 0% |
fico_score | FICO打分 | 314 | 6% | 182 | 4% |
purch_price | 汽车购买金额(元) | 0 | 0% | 0 | 0% |
msrp | 建议售价 | 1 | 0% | 1 | 0% |
down_pyt | 分期付款的首次交款 | 0 | 0% | 0 | 0% |
loan_term | 贷款期限(月) | 0 | 0% | 0 | 0% |
loan_amt | 贷款金额 | 0 | 0% | 0 | 0% |
ltv | 贷款金额/建议售价*100 | 1 | 0% | 0 | 0% |
tot_income | 月均收入(元) | 5 | 0% | 2 | 0% |
veh_mileage | 行使历程(Mile) | 1 | 0% | 1 | 0% |
used_ind | 是否二手车 | 0 | 0% | 0 | 0% |
weight | 样本权重 | 0 | 0% | - | - |
离散型 | vehicle_make | 汽车制造商 | 299 | 5% | 244 | 6% |