评分卡模型 数据预处理与特征构建

一、数据预处理、特征构建

预处理:处理缺失值、异常值,增强模型的稳健性

特征构建:形成有业务含义的优异特征

1. 评分卡模型

(1)分类和特征

- 风控场景中的评分卡:反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡

- 以分数形式来衡量风险几率的一种手段

- 对未来一段时间内违约/逾期/失联概率的预测

- 有一个明确的(正)区间

- 通常分数越高越安全

- 数据驱动

- 非信贷场景中的评分卡:推荐评分卡、流失评分卡

(2)开发步骤

- 立项:确定场景、产品和人群

- 数据准备与处理:选取数据、清洗数据、特征工程

- 模型构建:参数估计

- 模型评估:性能测试

- 验证/审计:验证建模的合理性

- 模型部署:上线

- 模型监控:持续监控并优化

(3)常用模型

2. 数据集介绍

「拍拍贷信贷申请审核」竞赛数据集

- 查看数据集基本信息、关键字段的含义和缺失值

- 特征构造的方法:求和、比例、频率、平均

- 什么是好的特征

- 稳定性高:内外部环境稳定时,特征的分布也要稳定

- 区分度高:未来的违约与非违约人群在特征上的分布需要显著不同

- 差异性大:不能对全部人群或绝大部分人群上有单一的取值

- 符合业务逻辑:特征与信用风险的关联关系要符合风控业务逻辑

3. 特征构建的方法

- 类别变量不能求和、平均、最值等,可以求频率和个数(不同时间切片)

- 时间切片太长,大部分样本的时间跨度无法满足

- 时间切片太短,抓取不到足够多的信息,且变量不稳定

- 通过计算登录日期与放款日期之间的间隔天数,可以看到绝大部分的天数在180天以内

- 时间切片选择:30、60、90、120、150、180

- 计算逻辑:针对idx在时间切片内的(注意消除线性相关性对模型产生的影响)

- 登陆次数

- 不同登录方式的个数

- 不同登录方式的平均个数

4. 数据的质量检验与处理

(1)数据集中度

在变量中,某单一数值的占比占了全部样本值的绝大多数(如学历)。

具有极高的集中度的字段或变量,需要按照风险程度(坏样本率:违约率)进行区分:

- “多数值”与“少数值”对应的坏样本率没有显著差别

- 包含信息较少,对模型开发没有太大价值

- 少数值的产生往往由于误差或者噪声,可以直接将字段删除

- 有显著差别,且坏样本率“少数值”<“多数值”

- 更关注风险高的一组,所以少数值得存在并不会带来额外的意义

- 直接将字段删除

- 有显著差别,且坏样本率“少数值”>“多数值”

- 少数值得存在表明该值对应的风险很高,字段需要保留

tips:10的对数是2.303,1/10的对数是-2.303,可以利用这个来比较比率,更直观

(2)数据缺失

数据缺失的两个维度:

  • 字段维度:某个字段在全部样本上的缺失值个数的占比

  • 样本维度:某条样本在所有字段上的缺失值的占比

缺失机制不同,处理方法也不同:

  • 完全非随机缺失:有缺失的样本的违约率显著高于无缺失样本

  • 完全随机缺失:有缺失的样本的违约率与无缺失样本无明显差异

    • 如果缺失样本的占比很少,可将样本删除

    • 如果缺失样本的占比较高,需要将字段删除

处理方法:

  • 舍弃该字段或该条记录:缺失占比太高

  • 补缺:缺失占比不高(前提,否则会产生较大的偏差),可用均值法、众数法、回归法等

    • 数值型变量:均值法(完全随机缺失)、抽样法(完全随机缺失)、回归法(针对随机缺失)

    • 类别型变量:抽样法,众数法

  • 作为特殊值(通常做法):将缺失堪称一种特殊值(划分为单独的箱)

判断变量类型的

  • 5
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
信用评分模型是一种用于预测个人信用违约风险的统计模型。其基本原理是通过对大量历史数据进行分析和建模,得出一组评分指标,进而根据个人的信用信息,计算出一个信用评分。而Python是一种功能强大且广泛应用于数据分析和建模的编程语言。 在Python中,我们可以使用一些常用的机器学习库,如Scikit-learn和Pandas,来构建信用评分模型。以下是一个基本的步骤: 1. 数据收集和预处理:首先,我们需要获取大量包含个人信用信息的数据集,包括违约和非违约的标签。然后,我们需要对数据进行清洗、转换和特征工程等预处理步骤,以准备建模。 2. 变量选择和编码:在信用评分模型中,通常使用一些关键的变量来预测信用违约风险,如收入、年龄、负债比等。我们需要选择与目标变量相关性较高的变量,并对其进行编码,以便于后续建模。 3. 模型训练和评估:使用收集到的数据集,我们可以将其分为训练集和测试集,然后使用训练集来拟合模型。常用的评分模型包括Logistic回归、支持向量机等。我们可以使用Scikit-learn库中的模型对象来训练模型,并使用测试集对其性能进行评估。 4. 评分计算和模型应用:当模型训练完成后,我们可以将其应用于新的个人信用信息,计算出一个信用评分。一般来说,评分较高的个人代表较低的信用违约风险,反之亦然。可以根据不同的信用评分分组,制定相应的风险管理策略和决策。 总体而言,使用Python构建信用评分模型需要进行数据处理、特征选择、模型训练和评估等步骤。Python的简洁、易用且丰富的机器学习库使得这一过程相对容易,能够帮助金融机构有效评估和管理个人信用风险。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值