信用评分模型详解(下)之 信用评分系统搭建

本文详细介绍了信用评分模型的构建过程,包括数据准备、数据探索、WOE编码、IV值计算、特征筛选、模型训练、评分卡构建及模型评估。通过逻辑回归模型,结合WOE和IV值来提升模型区分好坏客户的能力,最后通过KS和AUC等指标评估模型性能。
摘要由CSDN通过智能技术生成

信用评分问题中一般使用逻辑回归作为主要的模型。过程主要包括变量分箱、变量的WOE(证据权重)变换和变量选择(IV值)、逻辑回归估算。

一个完整的评分卡流程主要包括以下几个步骤:

  1. 数据准备
  2. 数据探索性分析
  3. 数据预处理,包括缺失值、异常值、数据切分
  4. 特征分箱:
  5. 特征筛选:IV值
  6. 单变量分析(IV)和多变量分析(两两相关性)
  7. 模型训练
  8. 评分卡构建
  9. 评分预测
    评分卡流程

1. 数据准备

数据源主要包含行内行外两部分:行内的有客户的基础人口统计特征数据、交易历史数据、信用历史数据等;
外部数据有人行征信数据、第三方征信机构数据及社交行为数据等。

2. 数据探索

  • 对获得的原始数据进行进一步的探索,观察样本的总体分布情况,正负样本是否均衡?
  • 单变量分布是否满足正态分布? 变量的缺失情况? 是否有异常值?
  • 变量间的共线性情况如何?评分卡模型主要是使用逻辑回归算法进行建模,要求变量间共线性尽可能低。可以采用热力图观察变量间共线性、变量规模。
  • 确定数据集分割方法,划分训练集和测试集? --确定坏用户的标准?比如:逾期多久算违约

3. 数据预处理

一般包括缺失值处理,异常值处理,特征共线性

4. 评分卡最优分箱

评分卡最优分箱的具体操作参见上篇博文。分箱结束后,需要对分箱后的变量进行WOE编码。计算公式如下:
W O E i = l n ( b i b / g i g ) WOE_i = ln(\frac{b_i}{b}/\frac{g_i}{g}) WOEi=ln(bbi/gg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值