评分卡模型数据预处理与特征构建

萝莉巴索小布丁

于 2018-10-22 16:25:25 发布

阅读量2.4k

点赞数 5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/axy_shelly/article/details/83274660

版权

本文详细介绍了评分卡模型在风控领域的应用，包括反欺诈、申请、行为评分卡等，并阐述了模型的开发步骤。重点讨论了数据预处理、特征构建的方法，如异常值、缺失值处理，以及特征构建的策略。此外，还探讨了数据质量检验，如数据集中度、缺失值和异常值的处理，并提出了特征分箱、WOE编码和信息值（IV）的概念，用于提升模型性能和选择重要变量。

摘要由CSDN通过智能技术生成

一、数据预处理、特征构建

预处理：处理缺失值、异常值，增强模型的稳健性

特征构建：形成有业务含义的优异特征

1. 评分卡模型

（1）分类和特征

- 风控场景中的评分卡：反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡

- 以分数形式来衡量风险几率的一种手段

- 对未来一段时间内违约/逾期/失联概率的预测

- 有一个明确的（正）区间

- 通常分数越高越安全

- 数据驱动

- 非信贷场景中的评分卡：推荐评分卡、流失评分卡

（2）开发步骤

- 立项：确定场景、产品和人群

- 数据准备与处理：选取数据、清洗数据、特征工程

- 模型构建：参数估计

- 模型评估：性能测试

- 验证/审计：验证建模的合理性

- 模型部署：上线

- 模型监控：持续监控并优化

（3）常用模型

2. 数据集介绍

「拍拍贷信贷申请审核」竞赛数据集

- 查看数据集基本信息、关键字段的含义和缺失值

- 特征构造的方法：求和、比例、频率、平均

- 什么是好的特征

- 稳定性高：内外部环境稳定时，特征的分布也要稳定

- 区分度高：未来的违约与非违约人群在特征上的分布需要显著不同

- 差异性大：不能对全部人群或绝大部分人群上有单一的取值

- 符合业务逻辑：特征与信用风险的关联关系要符合风控业务逻辑

3. 特征构建的方法

- 类别变量不能求和、平均、最值等，可以求频率和个数（不同时间切片）

- 时间切片太长，大部分样本的时间跨度无法满足

- 时间切片太短，抓取不到足够多的信息，且变量不稳定

- 通过计算登录日期与放款日期之间的间隔天数，可以看到绝大部分的天数在180天以内

- 时间切片选择：30、60、90、120、150、180

- 计算逻辑：针对idx在时间切片内的（注意消除线性相关性对模型产生的影响）

- 登陆次数

- 不同登录方式的个数

- 不同登录方式的平均个数

4. 数据的质量检验与处理

（1）数据集中度

在变量中，某单一数值的占比占了全部样本值的绝大多数（如学历）。

具有极高的集中度的字段或变量，需要按照风险程度（坏样本率：违约率）进行区分：

- “多数值”与“少数值”对应的坏样本率没有显著差别

- 包含信息较少，对模型开发没有太大价值

- 少数值的产生往往由于误差或者噪声，可以直接将字段删除

- 有显著差别，且坏样本率“少数值”<“多数值”

- 更关注风险高的一组，所以少数值得存在并不会带来额外的意义

- 直接将字段删除

- 有显著差别，且坏样本率“少数值”>“多数值”

- 少数值得存在表明该值对应的风险很高，字段需要保留

tips：10的对数是2.303，1/10的对数是-2.303，可以利用这个来比较比率，更直观

（2）数据缺失

数据缺失的两个维度：

字段维度：某个字段在全部样本上的缺失值个数的占比
样本维度：某条样本在所有字段上的缺失值的占比

缺失机制不同，处理方法也不同：

完全非随机缺失：有缺失的样本的违约率显著高于无缺失样本
完全随机缺失：有缺失的样本的违约率与无缺失样本无明显差异
- 如果缺失样本的占比很少，可将样本删除
- 如果缺失样本的占比较高，需要将字段删除

处理方法：

舍弃该字段或该条记录：缺失占比太高
补缺：缺失占比不高（前提，否则会产生较大的偏差），可用均值法、众数法、回归法等
- 数值型变量：均值法（完全随机缺失）、抽样法（完全随机缺失）、回归法（针对随机缺失）
- 类别型变量：抽样法，众数法
作为特殊值（通

最低0.47元/天解锁文章

萝莉巴索小布丁

关注

5
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
评分卡模型数据预处理与特征构建

一、数据预处理、特征构建预处理：处理缺失值、异常值，增强模型的稳健性特征构建：形成有业务含义的优异特征1. 评分卡模型（1）分类和特征- 风控场景中的评分卡：反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡- 以分数形式来衡量风险几率的一种手段- 对未来一段时间内违约/逾期/失联概率的预测- 有一个明确的（正）区间- 通常分数越高越安全- 数据驱动- 非...
复制链接

扫一扫

萝莉巴索小布丁 CSDN认证博客专家 CSDN认证企业博客

码龄7年

9: 原创

18万+: 周排名

50万+: 总排名

1万+: 访问

: 等级

270: 积分

18: 粉丝

19: 获赞

8: 评论

90: 收藏

私信

关注

热门文章

分类专栏

最新评论

手把手教你在腾讯云上搭建hadoop3.x伪集群
yang147896523: 请问为什么我的8088页面看不到application的任务进程，19888里面也没有任何记录，但是在系统里面，所有任务能成功完成，这是什么原因呢，我是按你写的端口进行配置的
手把手教你在腾讯云上搭建hadoop3.x伪集群
yang147896523: 终于有腾讯云的hadoop教程了，我搞了两天全是坑，非常感谢！解决了很多问题！
手把手教你在腾讯云上搭建hive3.1.2
brotherJoy: 你好，“初始化hive元数据库”报错“Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V at org.apache.hadoop.conf.Configuration.set(Configuration.java:1357) at org.apache.hadoop.conf.Configuration.set(Configuration.java:1338) at org.apache.hadoop.mapred.JobConf.setJar(JobConf.java:518) ”
信用评分卡（A卡）基于LR模型的数据处理及建模过程
urnotZoey 回复笨猪小猴子: 应该是a，想问这个balance是自己定义的评估均匀性的方法吗？
信用评分卡（A卡）基于LR模型的数据处理及建模过程
笨猪小猴子: 老师好！最近在看您的这篇文章里面的代码，Merge_adjacent_Rows自定义函数中， #如果方案a和b都不能减轻非单调性，返回均匀性更优的合并方案 if balance_a< balance_b: bins_list[i] = bins_list[i] + bins_list[i_next] bins_list.remove(bins_list[i_next]) bad_by_bin = bad_by_bin2b not_monotone_count = not_monotone_count2b balance = balance_b 这里应该是balance = balance_a吧！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。