风控信贷模型（一）：特征分析

最新推荐文章于 2025-04-18 11:31:06 发布

lanyuelvyun

最新推荐文章于 2025-04-18 11:31:06 发布

阅读量8.5k

点赞数 5

分类专栏：特征挖掘风控模型

本文链接：https://blog.csdn.net/lanyuelvyun/article/details/82151767

版权

本文介绍了信贷风控模型中特征分析的步骤，包括单特征分析、组合特征分析和特征衍生。通过观察特征分布、缺失值、极端值、方差、AUC、KS、IV值等，评估特征的区分能力和业务意义。同时，讨论了特征的时序稳定性，并提出计算特征importance和线性相关性的方法，以减少冗余特征。最后，探讨了如何通过多项式特征创建新特征，以提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

风控信贷模型（一）：特征分析

数据的探索分析EDA，是对数据进行初步的统计分析，统计数据的分布、异常、相互关系，目标是让我们了解这些数据能告诉我们什么。可以用来指导我们进行模型的选择，帮助我们初步决定哪些特征需要被使用，哪些特征需要被剔除。

前期准备与观察
1、准备好样本、特征、label；
2、查看样本集中样本总个数、特征总个数；
3、查看正负样本比例，如果正负样本相差不多，则属于样本均衡的建模问题，如果其中一类明显高于另外一类，则属于样本不均衡的建模问题；
4、查看每个特征的类型：离散型、连续型。按照不同的类型进行分组，分别进行处理

信贷业务里面，大部分时候面对的是二分类任务，下面就以二分类的信贷模型为例，讲述信贷模型中，特征分析的详细步骤。（ps：以下“特征”和“变量”指的是同一个意思。）

1、单特征分析

有几种分析角度，分别观察不同方面

1.1、观察特征值的分布和对正负样本的区分能力

分为整体分析和分箱分析。

1.1.1 整体分析

在总体样本上，计算

缺失率

1、缺失率>90%并且未来依然会高缺失的变量

如果有业务含义：如果在某一类上的缺失率明显高于另一类，那么该特征的缺失值比较具有区分能力，可以考虑将该特征作为黑/白名单使用；
如果没有业务含义：直接剔除掉；

2、缺失率<=90%的变量，保留。训练时候，缺失值的处理方式如下

连续型变量：如果偏正态分布，用均值填充，可以保持数据的均值；偏长尾分布，使用中值填充，避免受异常值的影响（ps：编程上可以用sklearn.preprocessing中的Imputer实现）；如果缺失量比较大，不适合使用平均值填补，一般直接将缺失值填充为区别于其他正常值的默认值，比如-1；
离散变量：用众数、区别于其他正常值的默认值比如-1，进行填充；

极端值分析

1、可以通过画箱图，观察有无极端值；

2、除非是计算或者人为错误，极端值需要从业务层面进行分析：