【金融风控建模系列】基础篇

第一章 风控建模三要素



前言

自从进入智能手机时代,伴随人们生活质量的提升,消费需求也越来越大。消费不再局限于线下,取而代之的线上消费慢慢成为主流…
交易转移到线上,风险就不可避免。最典型的就是信用卡消费,每个人会根据自己的“表现”获得一个额度,人们只能在这个额度下进行消费,借款人需在截止日期之前把钱还上,否则将面临失信问题。这在建模(系列文章中的风控建模均只局限于金融领域)中就是常说的“坏客户”。
那我们为什么要进行风控建模?如果出现坏客户,之后不借给他不就可以了。但请想象一下,现在出现一群没有还款能力的人,他们借了你家银行一大笔钱,最后都还不上…所以,风控建模的目的之一就是不借给这些人钱。
本章我会解释风控模型的三大基本要素。


一、数据

从数据体量看,一个有效果的风控模型至少需要用上千级别的数据量,且随特征数量逐步上升。从数据形式看,均是表格型数据。最常用的是csv格式的数据,相比于xlsx格式,csv占用的空间小的多。
建模用到的数据有一个很明显的特点,就是坏样本会远少于好样本。挑选的时候,需要尽可能保证坏样本总量大于500。

样本示例


其中,event_name:数据所在客群
month:数据所在月份
all_cnt:数据量
catch_cnt:y标签不为空的有效数据量
catch_rate:有效数据量占比
bad_cnt:y为1(坏样本)的数量
bad_rate:y为1(坏样本)的占比,也称坏账率
这是其中一种查看数据基本信息的方式。
观察该数据不难发现,每个月的样本量都超过10000,坏账量都超过1000,故他们都可以单独作为样本。另外,如果相邻月份具有相似坏账率,可以考虑合并。

二、特征

特征可以从很多维度进行分类。
第一步,我们先把特征分为基本特征待入模特征。基本特征不参与特征筛选,比如id,姓名,手机号,月份等,这类信息用作标识数据;待入模特征参与特征筛选,它反映用户的表现或其他能影响信用分的基本信息,比如收入,学历,最近一次是否还款,在其他机构的打分等。

基本特征和待入模特征

基本特征
在这里插入图片描述
sign_no:唯一标识符。
event_name:数据所在客群,用其他编码方式读来解决乱码的现象。

待入模特征
在这里插入图片描述
score_1-score_9:特征已进行脱敏,这里大概率是在其他机构的打分。

第二步,我们再把待入模特征分为非入模特征入模特征。常见的筛选依据包括iv(信息价值),empty(缺失率),corr(特征相关性),PSI(稳定性)。根据这些筛选指标把合格的特征筛选出来,并最终放入模型。

入模特征

在这里插入图片描述
这里用empty,iv,corr来筛选特征,不同阈值,筛选出来的特征可能会有差异。

三、模型

模型的输入是Dataframe格式的数据,数据中的列只包括入模特征+y标签列。
模型的输出是模型文件,常用的库pickle输出的为.dat后缀的模型文件。

代码示例

    # 训练模型
    xgb_clf = xgb.XGBClassifier(**bayes_params).fit(train_df.drop(columns=target, axis=1), train_df[target],
                                                    eval_metric='auc')
    with open(xgb_clf_path, 'wb') as f:
        pickle.dump(xgb_clf, f)
        print('模型已导出')
    f.close()

xgb是本次选用的算法,之后章节会重点讲解该算法。
bayes_params是模型参数,由贝叶斯调参而得。
train_df是训练样本。

章节总结

以上就是建模三要素,也是建模的核心部分。所有行为都应该围绕核心部分展开,包括数据清洗,数据分析,特征筛选,参数优化等。
下一章开始我会深入讲解数据样本是如何挑选的。”数据决定模型上限,算法决定模型下限“,与各位建模人共勉。

1. 营销获客 2. 贷前风控 2.1 贷前审查 2.2 反欺诈 2.3 风控策略 2.4 风控建模 2.5 数据管理 风控总监训练营 ......................................................................................................792 4 节课玩转信用评分卡模型....................................................................................792 如何搭建虚拟信用卡风控体系 ...............................................................................792 风控大牛手把手教你搭建企业级信用评分模型.....................................................792 2 大维度全面ᨀ升催收效率....................................................................................792 3 堂课,从 0-1 掌握基于数据驱动的风险定价核心...............................................792 如何打造现金贷产品的风控体系?........................................................................792 解密 P2P 网贷备案——专家教你如何正确应对备案..............................................793 区块链的前世今生及其应用 ...................................................................................793 区块链热潮下不可不知的法律风险:法律专家权威解读区块链、代币等案例与法律 分析 .........................................................................................................................793 牌照决定生死,现金贷及 P2P 如何拿牌?............................................................793
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

从那开始

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值