金融风控
金融风控
WGS.
道阻且长,与君共勉:你若对得起时间,时间便会对得起你。
展开
-
风控中评分卡的分数转化
文章目录小结在前由概率到分数的转换概率转换分数最终表达式变量的分值计算评分卡性能评估坏账率与通过率的审批策略双卡审批策略将模型预测概率转化为分数,更符合人的一个直观感受小结在前1.把对数几率当成分数2.在对数几率的基础上进行缩放平移(简单的线性变换,就是对数几率的线性变换)3.可用线性代数式所表示,能直观的看到每个变量都对分值有影响(可解释性强)4.变量可以用指示函数的方式,拆成每一个具体的值概率转换为分数需要三个条件1.样本总的分数是由每个变量的分数之和累加得到2.模型预测概率的变原创 2020-12-01 20:04:48 · 4963 阅读 · 1 评论 -
关于模型的评估指标(超详细)
文章目录正负样本的选择标准评估指标回归问题的评估指标SSE 和方差均方误差(MSE)均方根误差(RMSE)R Squared分类问题的评估指标错误率召回率(查全率)精确率(查准率)混淆矩阵和分类报告P-R曲线准确率f1分值什么时候关注召回率,什么时候关注精确率概率密度评估指标概率密度曲线图相对熵(K-L散度)概率、信息量信息熵相对熵(K-L散度)交叉熵概率分布评估指标ROC曲线KS曲线提升图提升图的另一种形式洛伦兹图(累计提升图)KS曲线模型的开发基于历史数据,而模型的使用则针对未来的数据。为了模拟这种建原创 2020-12-01 19:58:54 · 33723 阅读 · 3 评论 -
python 关于PMML文件的保存与加载
pip install pypmmlpip install sklearn2pmmlfrom sklearn2pmml import PMMLPipeline, sklearn2pmmlfrom pypmml import Model保存模型,以lr模型为例,关键代码:# 创建PMML管道pipeline = PMMLPipeline([ ('classifier', LogisticRegression(C=gscv.best_params_['C'], class_weight=原创 2020-11-24 20:22:27 · 2819 阅读 · 2 评论 -
变量选择详解与源码实现
文章目录1.过滤法变量选择1.1缺失情况变量筛选1.2方差变量筛选1.3预测能力变量筛选1.4业务理解的变量筛选(IV、PSI)1.5相关性指标变量筛选(最大相关最小冗余)2.包装法变量选择3.嵌入法变量选择4.一般变量选择过程1.基于IV值进行初步筛选2.聚类分析3.相关性分析4.逐步回归变量选择(包装法)5.随机森林或 Xgboost 模型变量重要性排序,得到最终的变量筛选结果5.过滤法、包装法、嵌入法源码1.读取数据区分离散变量与连续变量2.对连续变量和离散变量分箱(删除分箱数只有1的)3.对训练数据原创 2020-11-22 15:41:25 · 3309 阅读 · 6 评论 -
逻辑回归详细推导(保证能看懂)
文章目录基本认识逻辑回归模型逻辑回归模型的损失函数:交叉熵损失损失函数最小值求解推导迭代公式的向量化基本认识在评分卡项目中,如果需要构建一个标准的评分卡模型,就只能采用逻辑回归模型,因为其它支持概率输出的分类模型只能给出样本的总分值,没有办法给出每个变量的分值,以及每个变量不同取值的分值,也可以理解成不能看到每个特征对总分的影响线性回归简单回顾线性回归模型是用属性线性组合来预测目标变量,而每个属性的权重反映了在该模型中属性的重要程度,即权重越大,则在该模型中对目标变量的预测能力越强逻辑回归是一个原创 2020-11-20 20:48:01 · 2839 阅读 · 6 评论 -
连续变量分箱
文章目录1.变量分箱对模型的好处2.分箱的局限3.变量分箱要注意的问题4.变量分箱的流程5.卡方分箱6.KS分箱7.混淆矩阵概念复习8.最优IV分箱9.基于树的最优分箱方法10.分箱框架源码(卡方、最优IV、信息增益)变量分箱主要是对连续变量离散化对特征的一个优化过程变量分箱(特征分箱)是一种特征工程方法,意在增强变量的可解释性与预测能力。变量分箱方法主要用于连续变量,对于变量取值较稀疏的离散变量也应该进行分箱处理。比如借款人的地址信息往往非常稀疏,通常先对地址信息处理到省或市,用每个省或市的坏样本原创 2020-11-20 09:27:28 · 4473 阅读 · 2 评论 -
pandas关于 透视表(pivotTab)和交叉表(crossTab)
文章目录1.透视表(pivotTab)1.按‘产地’和‘类别’重新索引,然后在‘价格’和‘数量’上执行mean函数2.行索引为‘产地’,列索引为‘类别’,对‘价格’应用‘max’函数,并提供分项统计,缺失值填充02.交叉表(crossTab)1.透视表(pivotTab)透视表就是将指定原有DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚集函数(默认情况下式mean函数)。df = DataFrame({'类别':['水果','水果','水果','蔬菜','蔬菜','肉类','肉类'原创 2020-11-18 16:02:24 · 571 阅读 · 1 评论 -
离散变量编码
文章目录无监督编码One-hot编码独热编码优缺点调库实现Dummy variable 编码(哑变量)离散变量 One-hot 编码或哑变量编码的优点Label 编码有监督编码WOE编码WOE 编码的好处为什么不直接用WOE做特征选择 而用IVIV代码实现数据读取,分割数据集one-hot编码哑变量编码label 标签编码自定义标签映射WOE编码上述源码对离散变量进行编码转换,以进行数值化,其原则是保证编码后变量的距离可计算且符合原始变量之间的距离度量.常用距离公式介绍无监督编码编码的时候和标签原创 2020-11-18 15:11:55 · 2730 阅读 · 6 评论 -
数据清洗与预处理
文章目录数据集成数据清洗探索性分析(EDA)数据集字段说明代码实现读取数据集区分离散变量和连续变量由于数据集比较规范,为了演示注入脏数据对变量status_account随机注入字符串添加两列时间格式的数据添加冗余数据特殊字符清洗时间格式统一样本去除冗余探索性分析添加缺失值缺失值绘图对于连续数据绘制箱线图,观察是否有异常值查看数据分布源码数据集成评分卡模型开发需求确定后,接下来需要收集数据,进行数据集成。为了全面地描述借款人的信用属性,会从多个维度进行考量,如借款人的基本信息数据、信用数据、消费数据和行原创 2020-11-15 19:37:21 · 1824 阅读 · 3 评论 -
滚动率分析
滚动率分析是一种重要的好坏样本定义的方法滚动率分析是以真实的借款数据为基础,通过统计样本在不同逾期状态中的递延状态,进而确定好坏样本的定义,计算结果如表所示。注意,表中的数据为示意性数据,并非实际业务中的真实结果。表格中的行表示时间,列表示状态转移c-M1 表示样本由正常还款状态转为 M1 逾期M1-M2 表示样本由 M1 逾期状态转为 M2 逾期状态+ 15年6月,M1逾期的占比4.59%+ 15年7月,M1逾期的占比4.71%,M1-M2逾期的是55.9%(在m1逾期的基础上,变为m2原创 2020-11-15 18:24:44 · 3141 阅读 · 2 评论 -
评分卡模型介绍
文章目录申请评分卡行为评分卡催收评分卡反欺诈模型个人信贷中,信用风险评估的关键是:通过分析借款人的信用信息,评估借款人的偿还能力和意愿量化违约风险信用评分卡模式是个人信贷风险管理中的重要手段,是一种结合专家经验的数据驱动方式评分卡模型包括申请评分卡、行为评分卡、催收评分卡。其中,申请评分卡是最重要的评分卡,因为平台风险管理的主要风险均来自于申请阶段。除此之外还有反欺诈模型、营销评分卡和客户流失评分卡等,它们在风控系统中的先后顺序如图 1-2 所示申请评分卡申请评分卡是平台风险管理中最原创 2020-11-13 09:01:22 · 2473 阅读 · 1 评论 -
智能风控背景
文章目录1.金融科技介绍1.1 金融科技的前世今生1.金融科技 1.0:从模拟到数字2.金融科技 2.0:传统金融服务的数字化3.金融科技 3.0:发达国家市场的 Fintech4.金融科技 3.5:亚洲和非洲新兴市场的 Fintech1.2 金融科技正深刻地改变和塑造着金融业态1.3 新兴科技不断强化金融科技的应用能力1.4 金融风险控制面临着前所未有的挑战1.5 智能风控和评分卡1.金融科技介绍从定义上讲,“金融科技”或者 Fintech 是指使用技术提供财务解决方案。金融科技基于大数据、云计算和人原创 2020-11-07 15:07:57 · 2324 阅读 · 2 评论