一、数据预处理、特征构建
预处理:处理缺失值、异常值,增强模型的稳健性
特征构建:形成有业务含义的优异特征
1. 评分卡模型
(1)分类和特征
- 风控场景中的评分卡:反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡
- 以分数形式来衡量风险几率的一种手段
- 对未来一段时间内违约/逾期/失联概率的预测
- 有一个明确的(正)区间
- 通常分数越高越安全
- 数据驱动
- 非信贷场景中的评分卡:推荐评分卡、流失评分卡
(2)开发步骤
- 立项:确定场景、产品和人群
- 数据准备与处理:选取数据、清洗数据、特征工程
- 模型构建:参数估计
- 模型评估:性能测试
- 验证/审计:验证建模的合理性
- 模型部署:上线
- 模型监控:持续监控并优化
(3)常用模型
2. 数据集介绍
「拍拍贷信贷申请审核」竞赛数据集
- 查看数据集基本信息、关键字段的含义和缺失值
- 特征构造的方法:求和、比例、频率、平均
- 什么是好的特征
- 稳定性高:内外部环境稳定时,特征的分布也要稳定
- 区分度高:未来的违约与非违约人群在特征上的分布需要显著不同
- 差异性大:不能对全部人群或绝大部分人群上有单一的取值
- 符合业务逻辑:特征与信用风险的关联关系要符合风控业务逻辑
3. 特征构建的方法
- 类别变量不能求和、平均、最值等,可以求频率和个数(不同时间切片)
- 时间切片太长,大部分样本的时间跨度无法满足
- 时间切片太短,抓取不到足够多的信息,且变量不稳定
- 通过计算登录日期与放款日期之间的间隔天数,可以看到绝大部分的天数在180天以内
- 时间切片选择:30、60、90、120、150、180
- 计算逻辑:针对idx在时间切片内的(注意消除线性相关性对模型产生的影响)
- 登陆次数
- 不同登录方式的个数
- 不同登录方式的平均个数
4. 数据的质量检验与处理
(1)数据集中度
在变量中,某单一数值的占比占了全部样本值的绝大多数(如学历)。
具有极高的集中度的字段或变量,需要按照风险程度(坏样本率:违约率)进行区分:
- “多数值”与“少数值”对应的坏样本率没有显著差别
- 包含信息较少,对模型开发没有太大价值
- 少数值的产生往往由于误差或者噪声,可以直接将字段删除
- 有显著差别,且坏样本率“少数值”<“多数值”
- 更关注风险高的一组,所以少数值得存在并不会带来额外的意义
- 直接将字段删除
- 有显著差别,且坏样本率“少数值”>“多数值”
- 少数值得存在表明该值对应的风险很高,字段需要保留
tips:10的对数是2.303,1/10的对数是-2.303,可以利用这个来比较比率,更直观
(2)数据缺失
数据缺失的两个维度:
-
字段维度:某个字段在全部样本上的缺失值个数的占比
-
样本维度:某条样本在所有字段上的缺失值的占比
缺失机制不同,处理方法也不同:
-
完全非随机缺失:有缺失的样本的违约率显著高于无缺失样本
-
完全随机缺失:有缺失的样本的违约率与无缺失样本无明显差异
-
如果缺失样本的占比很少,可将样本删除
-
如果缺失样本的占比较高,需要将字段删除
-
处理方法:
-
舍弃该字段或该条记录:缺失占比太高
-
补缺:缺失占比不高(前提,否则会产生较大的偏差),可用均值法、众数法、回归法等
-
数值型变量:均值法(完全随机缺失)、抽样法(完全随机缺失)、回归法(针对随机缺失)
-
类别型变量:抽样法,众数法
-
-
作为特殊值(通常做法):将缺失堪称一种特殊值(划分为单独的箱)
判断变量类型的