特征空间在风险建模中的应用

上周日我报名听了萧老师主讲的公开课"风控模型开发之特征筛选",今天想和大家分享一下课程的第一部分内容:特征空间。

目录
常用数据源介绍

特征衍生常见方法

特征回溯

特征筛选一般流程

如果各位感兴趣的话评论区与我留言互动,我会根据留言在下篇分享课程第二部分内容:风险模型—特征筛选的方式。

每一条样本被称作是一个实例,通常由特征向量表示,所有特征向量存在的空间称为特征空间(feature space)。

常用数据源介绍

风控可分为贷前、贷中、贷后三个不同的阶段,在不同阶段建模所用到的数据源也是不同的。比如:

贷前:

比如做贷前评估卡,通常会用到反映客户信用水平的数据(征信、多头借贷、其他平台的逾期信息等);

贷中:

比如贷中的额度管控,提额或是冻结,通常会加工一些客户的用信历史、支用还款行为等;

贷后:

比如贷后催收,通常会使用到客户得逾期、催收信息等。

从以上这些数据源的获取渠道分类来看,主要有3个渠道:

用户自己提供的(身份证、年龄、学历、收入、所在公司、行业、户籍、联系方式、婚姻状况、联系人信息等等);
经客户授权后获取的客户信息(APP行为数据、设备类信息、贷中行为数据等);
从外部第三方接入的数据(人行征信、公积金、多头、消费、支付等)。

特征衍生常见方法

特征衍生是整个建模过程关于特征处理(特征工程)中的一个环节,一些变量或者变量之间的组合能给模型引入非线性的统计信息,给模型带来一定程度的提升。

变量衍生有各种各样的方法,比的就是谁的脑洞更大。可以简单粗暴的根据业务理解进行变量的组合。一般暴力衍生的基本逻辑:基于时间窗口事件类型聚合统计指标这几个维度的笛卡尔积(两个集合X和Y)。关注“金科应用研院”,回复CSDN,领取风控大礼包。

时间滑窗数量统计类特征:
时间窗口求和统计特征

时间窗口均值统计特征

时间窗口最值统计特征

时间窗占比统计类特征

时间窗趋势统计类特征

时间窗稳定性衍生特征

示例:
比如通话记录类的特征衍生:时间+事件(拨出/接入/时长/次数)+统计(count/sum/mean/占比)

图片

(衍生特征图例)

特征回溯

在风控模型开发的标准化流程当中,特征的回溯及筛选是重要的一个环节。风控模型使用的特征常常包含征信、消费支付、多头借贷、设备类等特征。

数据决定了模型的上限,而模型只是通近这个上限。下图表示为模型开发阶段和模型上线调用阶段的数据的使用逻辑。

注意避免数据穿越:回溯特征是在样本设计阶段之后的过程,所用这里需要注意的一点是观察点的使用(避免特征的统计时点出现在表现期)。一般使用客户的三要素(姓名、身份证、手机号)+观察点去进行回溯。特征的统计时点一定要在样本的观察点之前,否则就会出现数据穿越现象(借用客户未来的信息预测未来)。

在这里插入图片描述

特征筛选一般流程

在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值