信用评分卡建模:特征工程总结

数据和特征决定了机器学习的上限,而模型和算法只是进一步接近这个上限而已。由此可见特征工程在建模中的重要性。在传统评分卡模型的建模过程中,会经过一系列非常严格的数据预处理和特征工程,从众多特征中,选择少于20个特征参与建模,以保证模型性能。接下来我们从数据层和算法层两方面介绍如何衍生变量。

一 数据层特征工程

  1. 变量编码

  2. 连续变量分箱

  3. 函数变换
    如对数变换,日期类型转化为天数,变量归一化,标准化等

  4. 多项式升维

  5. 核函数映射

  6. 时间切片
    如计算日期类型变量的1,3,6个月内的特征变化情况,可以是均值,方差,求和等。

  7. 笛卡尔积特征

二 算法层特征工程

1. 基于树模型的特征生成
其中树模型可以是普通的决策树,集成学习中的Random Forest模型, GBDT模型, Xgboost模型等。

2. FM特征交叉

FM(Factorization Machine)特征交叉是二阶多项式模型的改进版,同时也是线性回归模型的一种扩展,增加了二阶交叉项,用隐向量的形式近似计算交叉项权重。

优点:

i)训练的交叉参数从d(d-1)/2降至dk个,提高了模型效率,也降低了少量样本的模型交叉项学习不充分的影响;

ii)交叉项的参数将分别通过对应两个特征的隐向量的内积得到,一些在新数据中出现的交叉项特征也能进行预测,提升了模型预测能力。

FM模型的改进版是FFM模型(Field-aware Factorization Machine)。对不同类型的变量所属的域进行了区分。

3.神经网络特征工程

神经网络能自动衍生出大量特征。
FM模型和神经网络结合衍生特征的方法:
并行结合:Wide&Deep,DeepFM等
串行结合:DeepCross,xDeepFM,PNN,NFM,AFM等。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值