金融风控
文章平均质量分 85
村头陶员外
这个作者很懒,什么都没留下…
展开
-
金融风控-- >客户流失预警模型-- >特征工程
上一篇博文中,我们对金融数据(连续性变量,类别性变量)进行了可视化操作,以及单因子分析,多因子分析等初始预处理。得出了变量和目标变量的相关性。本篇博文中将对金融数据进行全面详细的数据预处理以及特征工程。这里包括以下几点:极端值的处理缺失值的处理特殊变量的处理构造流失行为的特征极端值的处理极端值:又称离群值,往往会扭曲预测结果并影响模型精度。回归模型(线性回归,广义线性回归)中离群值的影响尤原创 2017-07-10 15:28:39 · 2654 阅读 · 0 评论 -
金融风控-- >客户流失预警模型-- >GBDT建模
前几篇博文中,我们对金融数据进行了分析,数据预处理和特征工程。这篇博文将利用金融数据训练出一个GBDT模型。本篇博文的主要内容分为以下三个部分:GBDT模型简介分类器性能指标GBDT在流失预警模型中的应用GBDT模型简介有关GBDT模型的介绍,大家可以看我的另外两篇博文机器学习–>集成学习–>Bagging,Boosting,Stacking,机器学习–>集成学习–>GBDT,RandomF原创 2017-07-11 22:18:36 · 1474 阅读 · 0 评论 -
金融风控-- >客户流失预警模型-- >神经网络建模
上一篇博文中,我们对金融数据建立了GBDT模型。这篇博文将利用深度学习框架pytorch对金融数据建立一个人工神经网络模型。有关人工神经网络的详细介绍请看我的另外一篇博文人工神经网络。人工神经网络数据预处理: 不能有缺失值 移除常量型特征(即这个特征的最大值和最小值相等) 不能接受非数值形式的输入,字符型变量需要编码:One hot编码Dummy编码浓度编码变量归一化/标准化原创 2017-07-13 11:13:43 · 1944 阅读 · 0 评论 -
金融风控-- >申请评分卡模型-- >申请评分卡介绍
从这篇博文开始,我将总结金融风控中的另外一个模型:申请评分卡模型。这篇博文将主要来介绍申请评分卡的一些基本概念。本篇博文将以以下四个主题来进行介绍说明:信用风险和评分卡模型的基本概念申请评分卡在互联网金融业的重要性和特性贷款申请环节的数据介绍和描述非平衡样本问题的定义和解决方法信用风险和评分卡模型的基本概念什么是信用风险交易对手未能履行约定契约中的义务而造成经济损失的风险,即受信人不能履行原创 2017-07-14 10:52:24 · 9166 阅读 · 3 评论 -
金融风控-- >客户流失预警模型-- >金融数据分析
从这篇博文开始,我将介绍机器学习,深度学习在金融风控这个行业上的应用。其实机器学习,深度学习在一些相关场景上的应用,其解决方法都是大同小异,差不多都是固定的解决套路,但是需要结合这个场景这个行业领域的相关知识来解决。这篇博文将开始介绍客户流失预警模型,而本篇博文将主要侧重介绍金融数据分析,预处理。客户流失预警模型的业务意义严格地讲,客户流失指的是客户在该行所有业务终止, 并销号。但是具体业务部门原创 2017-07-09 09:53:35 · 3973 阅读 · 2 评论 -
金融风控-- >申请评分卡模型-- >特征工程(特征分箱,WOE编码)
这篇博文主要讲在申请评分卡模型中常用的一些特征工程方法,申请评分卡模型最多的还是logsitic模型。先看数据,我们现在有三张表:已加工成型的信息:Master表 idx:每一笔贷款的unique key,可以与另外2个文件里的idx相匹配。 UserInfo_*:借款人特征字段 WeblogInfo_*:Info网络行为字段 Education_Info*:学历学籍字段 ThirdPar原创 2017-07-16 21:26:07 · 12595 阅读 · 11 评论 -
金融风控-- >申请评分卡模型-- >logisticRegression建模
上一篇博文中,我们对数据进行了特征工程处理,包括特征分箱,WOE编码,计算IV值,进行单变量,多变量的分析等一系列的处理。总结特征分箱的一些处理办法如下图的流程图:那么本篇博文在上篇博文的基础上,建立logisticRegression模型,其主要思想的流程图如下,其中特征分箱部分就是对应上面流程图:logsiticRegression介绍有关logsiticRegression详细介绍请看我的另外原创 2017-07-23 10:48:54 · 5895 阅读 · 2 评论