第三章 特征
前言
数据篇中提到了多种处理数据的方法,包括数据抽取,单客群处理和多客群处理。经过上述步骤后,模型已初具雏形。
进入特征篇后,数据样本基本不会再发生改变,模型将在不断调试特征的情况下取得表现更好的模型。评估的标准是现有模型相比于其他模型在各个客群上表现的增益。
特征筛选按照处理时间段分为建模前和建模后。建模前的目的是特征初筛,建模后的目的是剔除干扰特征。
一、建模前
1.toad库特征筛选
toad是风控建模中常用的包。它可以在筛选特征中起到关键作用。
其中,关键包和函数如下:
import toad
toad.selection.select()
特征筛选的主要参数如下:
empty_limit
iv_limit
corr_limit
为选取最合适的特征,这里采用“控制变量的方式”选择最优参数。具体操作步骤如下:
1.每轮选定一个待调整参数,其余为固定参数。
2.第一轮的固定参数按照各自范围内最常见的值进行确定。
3.每轮确定一个待调整参数,并在下一轮中把该参数设定为固定参数。
4.确定所有最合理的参数。
2.结果分析
这是结果记录表,红框内展示的是其中一轮的结果。从表中可以看到,empty_limit是待调整参数,train_size,iv,corr为固定参数。
选择相同属性集进行比较,选出KS/AUC综合表现更好的参数用于之后做固定参数。经过数轮的筛选,选出最适合当前样本的初筛特征。
结合已挑选的样本和初筛特征,进入模型训练环节。
二、建模后
根据模型在各个客群上的表现,选出表现不佳的客群。
总结
以上就是数据章节的第三部分,本部分介绍了多客群样本的生成过程,包括核心单客群的选择和样本叠加。
下篇文章会进入系列文章的特征篇,这个章节会阐述如何选择最适合样本的特征,从而进一步提升模型在各个客群的表现。
代码问题或其他任何问题想要咨询的小伙伴可以加作者微信:HopesXj
咱们下次见。