金融风控
文章平均质量分 94
一蓑烟雨紫洛
一蓑烟雨任平生
展开
-
13GBDT特征交叉
在风控领域发展过程中,使用最多的方法是逻辑回归,逻辑回归使用了sigmoid变换将函数值映射到[0,1]区间,映射后的函数值就是对一个人违约概率的预估值。逻辑回归同样属于广义线性模型,容易并行化,可以轻松处理上亿条数据,但是学习能力十分有限,需要大量的特征工程来增加模型的学习能力。将连续特征离散化,并对离散化的特征进行one-hot编码,最后对特征进行多阶的特征组合,也是特征衍生的常用手段。不知道连续变量切分点如何选取不知道离散化为多少份最为合理。原创 2024-05-15 13:55:45 · 740 阅读 · 0 评论 -
12拒绝推断
风控建模中,幸存者偏差是普遍存在的问题。也就是我们建模用到的数据无法充分反应所有客群的整体分布信息,从而得到错误的总体估计。原创 2024-05-15 13:51:05 · 767 阅读 · 0 评论 -
11模型可解释性
SHAP(SHApley Additive exPlanations)是一种用博弈论方法(起源于合作博弈论)来解释机器学习模型输出的方法。SHAP通过计算模型中各个特征的边际贡献来衡量各个特征的影响大小,进而对黑盒模型进行解释。该边际贡献在SHAP中称为Shapley Value,最开始由2012年诺贝尔经济学奖的获得者Lloyd Shapley于1938年提出,用于解决合作博弈论中的分配均衡问题。原创 2024-05-15 13:46:50 · 853 阅读 · 0 评论 -
10模型可解释和LIME
内部结构非常复杂,其运作机制就像一个黑盒子一样,难以用人类可以理解的语言去描述模型输出结果也难以被解释,使得其在一些有关生命安全或重要决策领域的应用受到巨大挑战某银行希望通过XGBoost模型,判断客户名单中哪些人更有可能会购买基金产品。经过训练之后,模型的AUC达到了0.85,结果非常理想,营销人员拿着模型预测的名单逐个进行电话营销。结果在几百通电话之后,最终只有一两个客户购买了基金产品,原因是什么?原创 2024-05-15 13:41:14 · 774 阅读 · 0 评论 -
8评分卡建模整体流程梳理
但是考虑到后续建模过程要对变量进行分箱处理,该操作会使变量的IV变小,变量间的相关性变大,因此此处可以对IV和相关系的阈值限制适当放松,或不做限制。使用逐步回归进行特征筛选,使用线性回归模型,并选择KS作为评价指标 - estimator: 用于拟合的模型,支持’ols’, ‘lr’, ‘lasso’, ‘ridge’第4~6箱合并,最后3箱进行合并。上图中,图中的线没有交叉,故不需要对该特征的分组进行合并,即使有少量交叉也不会对结果造成明显的影响,只有当错位比较严重的情况下才进行调整。原创 2024-05-15 13:13:36 · 946 阅读 · 0 评论 -
7集成学习评分卡
梯度提升最强大的特性之一是它适用于各种各样的损失函数。这意味着我们也可以设计自己的、更加适用于某一特定问题的损失函数来处理我们的数据集和任务的特定属性。某些情况下我们可能需要高召回率(更少的假阴性,在医学诊断中)或高精准率(更少的假阳性,例如,在垃圾邮件检测中),而不是高准确率。在许多此类场景中,通常需要自定义损失函数。原创 2024-05-15 13:03:51 · 389 阅读 · 0 评论 -
5 特征筛选
使用排除法的方式训练模型,把模型性能下降最少的那个特征去掉,反复上述训练直到达到指定的特征个数、VIF越大说明拟合越好,该特征和其他特征组合共线性越强,就越没有信息量,可以剔除。避免未来信息:使用外部数据的时候,可能出现训练模型的时候效果好,上线之后效果差。如果一个特征是其他一组特征的线性组合,则不会在模型中提供额外的信息,可以去掉。模型中尽可能使用区分度相对较弱的特征,将多个弱特征组合,得到评分卡模型。从几个角度衡量:覆盖度,区分度,相关性,稳定性。匹配上的是共有的数据,匹配不上的外部无法得知其身份。原创 2024-05-15 11:13:01 · 702 阅读 · 0 评论 -
4 特征构造
分箱(离散化)后,模型会更稳定,如对年龄离散化,20-30为一个区间,不会因为年龄+1就变成一个新的特征。- 其它分箱方法:聚类分箱(k-means), 决策树分箱,等频分箱,等距分箱 - 各种分箱方法对比。单变量分箱(离散化)为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力。分箱(离散化)后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;上一小结最后的案例为例。(����=���(������/�����)) 好用户比例/坏用户比例。原创 2024-05-15 11:03:02 · 907 阅读 · 0 评论 -
3 风控建模概述
知道ABC评分卡是什么,有什么区别知道风控建模的流程掌握评分卡模型正负样本定义方法知道如何构建特征,如何评估特征信贷审批业务基本流程四要素认证:银行卡持有人的姓名、身份证号、银行卡号、手机号互联网金融风控体系主要由三大部分组成:用户数据:用户基本信息、用户行为信息、用户授权信息、外部接入信息。数据采集会涉及到埋点和爬虫技术,基本上业内的数据都大同小异。- 免费的运营商数据安卓可爬的手机内部信息(app名称,手机设备信息,部分app内容信息)原创 2024-05-15 10:52:44 · 881 阅读 · 0 评论 -
2-风控业务报表
注册表 u_user`id` bigint NOT NULL AUTO_INCREMENT COMMENT '自增主键',`role_type` int NOT NULL DEFAULT '0' COMMENT '角色(-1:普通用户)',`type` int NOT NULL DEFAULT '0' COMMENT '(暂时保留)0:借款用户,1:资金账户用户',`status` int NOT NULL DEFAULT '0' COMMENT '用户状态',原创 2024-05-15 10:42:58 · 864 阅读 · 0 评论 -
1金融风控相关业务介绍
信贷业务,就是贷款业务,是商业银行和互联网金融公司最重要的资产业务和主要赢利手段通过放款收回本金和利息,扣除成本后获得利润。贷款平台预测有信贷需求用户的还款情况,然后将本金借贷给还款概率大的用户信贷业务中,使用信用来预支金钱,在小额贷业务中往往没有抵押物,那么贷款方就会承担一定风险(用户不还钱)风控就是对用户的信用风险进行管理与规避,对于预测信用较差的人,不向其放款,即便放款,也会是较小的贷款额度和较高的利率信贷领域有两类风险:信用风险:借款人的的还款能力和还款意愿在贷款后出现问题的风险。原创 2024-05-15 10:37:44 · 960 阅读 · 0 评论