【信贷风控30分钟精通17】特征工程2

本文介绍了在IT技术背景下,如何通过相关性选择法(如Pearson、Spearman和Kendall相关系数)、多重共线性检测(VIF)以及IV选择来优化特征工程在信贷风险控制中的应用。重点讨论了如何通过这些方法评估和处理特征之间的关系,以提高模型预测能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

​编辑

基于特征属性选择

相关性选择法

多重共线性选择法

基于特征效果选择

IV选择


基于特征属性选择

相关性选择法

相关性是衡量两个特征间依赖关系的指标。逻辑斯谛回归等算法要求特征之间不能具有很强的相关性。如果使用相关性很高的特征,那么可能无法用特征系数解释最终模型的入模特征(即模型使用的特征)与目标变量之间的关系。因此,在使用广义线性模型时,需要进行特征相关性筛选。而对于树模型,特征相关性影响不大可以不进行相关性筛选。度量特征相关性的指标有很多,常见的有 Pearson 相关系数、Spearman 相关系数和 Kendall相关系数等。

  • Pearson相关系数用来度量特征的线性相关性,取值范围为[-1,1],大于0表示两个特征正相关,小于0表示两个特征负相关,等于0表示两个特征非线性相关。
  • Spearman相关系数用来度量特征单调相关性,取值范围为[-1,1],大于0表示两个特征正相关,小于0表示两个特征负相关,等于0表示两个特征非单调相关。
  • Kendall 相关系数用来度量有序分类特征相关性,取值范围为[-1,1],大于0表示两个特征正相关,小于0表示两个特征负相关,等于0表示两个特征排名独立。

在Python中,我们可以利用pandas库中的com()方法计算特征的相关系数,该方法中的method参数可指定度量方法,参考代码如下

#利用pandas库计算相关系数
pearson_corr = X_train.corr(method='pearson')
# Pearson相关系数
spearman_corr = X_train.corr(method='spearman')
# Spearman相关系数
kendall_corr = X_train.corr(method='kenda11')#Kenda11相关系数

除此之外,SciPy库中的pearsonr(方法能够同时计算相关系数和p值,p值能够反映两个特征的显著水平。如果不显著,那么相关系数再高,也无参考价值,可能是由偶然因素引起的。通常情况下,当p值小于0.05时,我们就认为统计量是显著的

需要注意的是,Pearson相关系数易于计算且计算速度快,但它只对线性关系敏感。如果关系是非线性的,那么,即便两个变量具有——对应的关系,Pearson 相关系数也可能接近0。对于相关性大的两个特征,我们通常保留其中区分性好、稳定性强的一个,具体方法可参照IV选择和PSI选择。

多重共线性选择法

多重共线性描述的是一个自变量与其他自变量(可以是多个)之间的完全线性关系。在使用逻辑斯谛回归算法时,我们要避免特征之间存在较强的共线性。

方差膨胀系数(Variance Infation Factor, VIF)是一种衡量共线性程度的常用指标,它表示回归系数估计量的方差与假设特征间不线性相关时的方差的比值。VIF计算公式如式VIF=\frac{1}{1-R^{2}}R^{2}是某个特征对其余特征做回归分析的复相关系数。VIF越大,该特征与其他特征的关系越复杂,多重共线性越严重。我们通常将10作为判断边界,若VIF<10,则认为不存在多重共线性;若10≤VIF<100,则认为存在较强的多重共线性;若VIF≥100,则认为存在严重的多重共线性。在Python中,我们可以利用statsmodels 库中的variance_inflation_factor()函数计算VIF

基于特征效果选择

IV选择

IV(Information Value,信息价值)是衡量特征预测能力的关键指标。IV和WOE的关系可以表述为:WOE 描述了特征和目标变量之间的关系,IV用于衡量这种关系的强弱程度
WOE 分析了特征各个分箱对于目标变量的预测能力,IV用来反映特征的总体预测能力。IV的计算公式如式,即在第i箱WOE 的基础上乘以系数,该系数表示这个分箱坏样本比例和好样本比例的差

在风控模型中,我们一般认为贷前特征|V-小于0.02表示该特征几乎无预测能力;当IV处于[0.02,0.1)区间时,我们认为特征预测能力弱;当IV处于[0.1,0.3)区间时,我们认为特征预测能力中等;当IV处于[O.3,0.5)区间时,我们认为特征预测能力强;当I大于或等于0.5时,我们认为特征预测能力太强,需要确认特征逻辑是否正常,以及是否存在“穿越”情况。

待续:【信贷风控30分钟精通18】特征工程3

<think>好的,用户想了解信贷特征工程的技术和方法。首先我需要回忆一下之前提供的参考引用内容,看看有哪些相关的信息可以整合。引用[2]和[3]提到了自动化特征工程,特别是如何通过预定义的算子和模式批量生成特征,这应该是一个重点。引用[4]强调了数据探索的重要性,包括理解业务含义和数据的基本特征类型,这部分在特征工程中也很关键。 用户的问题涉及方法、技术和实现,所以需要分几个部分来回答。首先是传统的手工特征工程,这里可以结合引用[3]提到的业务专家经验定义特征,类似于手工打造。然后是自动化特征工程,引用[2]和[3]都讨论了自动化的优势,比如批量生成特征,减少人工干预,这里需要详细说明技术手段,比如特征生成框架和自动编码器。 接下来是数据预处理和特征处理技术,这部分需要包括数据清洗、缺失值处理、标准化等,引用[4]提到的数据探索和预处理可以支持这一点。然后是特征选择与评估,这里可以引用[4]的数据类型分析,比如定类型、定序型等,说明如何通过统计方法和模型评估特征重要性。 在实现层面,需要提到具体的工具和平台,比如Python的Featuretools,以及如何结合业务知识进行优化。最后结合引用[1]中的蒙特卡洛方法,说明特征工程如何与险评估模型结合,提升预测准确性。 需要注意的是,用户可能对如何具体实施自动化特征工程或如何处理高维数据有疑问,所以相关问题部分可以包括这些方面。另外,要确保回答结构清晰,分点说明,并自然地融入引用内容作为支持。</think>### 信贷中的特征工程技术和方法 信贷特征工程是通过对数据的深度挖掘与转换,构建能够有效区分险的特征变量,为险评估模型提供输入。以下是主要方法和技术实现: --- #### 1. **传统手工特征工程** - **业务经验驱动**:基于业务专家对信贷场景的理解,人工定义与还款能力、还款意愿相关的特征,例如: - 负债收入比:$$ \text{负债收入比} = \frac{\text{月负债}}{\text{月收入}} $$ - 历史逾期次数:统计借款人过去12个月的逾期记录[^3]。 - **数据探索与业务理解**:通过分析数据分布(如定比型、定序型数据)、缺失值比例和异常值,结合业务逻辑筛选有效特征[^4]。 --- #### 2. **自动化特征工程** - **特征生成框架**:利用预定义的算子(如聚合、时间窗口统计、交叉组合)批量生成特征。例如: - 对借款人近3个月的交易流水自动生成“平均交易金额”“最大单笔消费”等特征。 - 使用自动编码器(Autoencoder)对高维稀疏数据(如消费行为)进行降维和特征提取[^2]。 - **工具支持**:Python的`Featuretools`库可基于时间戳和实体关系自动生成特征组合[^2]。 --- #### 3. **数据预处理与特征处理技术** - **缺失值填充**:针对收入、职业等字段,采用均值填充、模型预测(如随机森林)或业务规则填充(如默认职业为“其他”)[^4]。 - **标准化与分箱**: - 对连续变量(如年龄)进行分箱处理,转化为定序型特征。 - 对数值型特征使用Z-score标准化:$$ x_{\text{标准化}} = \frac{x - \mu}{\sigma} $$ - **异常值处理**:通过IQR(四分位距)或业务阈值过滤极端值。 --- #### 4. **特征选择与评估** - **统计方法**: - 使用IV值(Information Value)评估特征对目标变量(如是否违约)的预测能力:$$ \text{IV} = \sum \left( \frac{\text{好样本占比} - \text{坏样本占比}}{\ln(\text{好样本占比}/\text{坏样本占比})} \right) $$ - 通过相关系数、卡方检验筛选高区分度特征[^4]。 - **模型驱动**:利用Lasso回归、随机森林的特征重要性排序,剔除冗余特征。 --- #### 5. **实现与应用** - **工具链**:结合`Pandas`(数据清洗)、`Scikit-learn`(特征编码)、`TSFRESH`(时间序列特征生成)等工具实现全流程自动化[^2]。 - **业务结合**:将生成的变量与蒙特卡洛模拟结合,预测借款人未来现金流稳定性[^1]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

水木流年追梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值