Erin的博客

数据分析,机器学习

信用标准评分卡模型开发及实现

一、信用风险评级模型的类型信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡、B卡、C卡和F卡;债项评级模型通常按照主体的融资用途,分为企业融资模型、现金流融资模型和项目融资模型等。 A卡,又称为申请者评级...

2017-08-03 02:07:58

阅读数 55088

评论数 15

R及Python的数据分析入阶—小白必看

前情提要:博主在数据分析中一直用R比较多,近期开始转向python。作为一个一贯熟悉了R进行数据分析及建模的使用视角,简单谈谈对它的想法 众所周知,Python作为一门免费、自由的编程语言,在软件开发,游戏开发,Web开发,数据分析及数据挖掘领域有着非常广泛的运用。 当然啦,博主作为一枚长期数据e...

2017-07-13 19:41:57

阅读数 975

评论数 0

中国消费金融的未来,已经到来——《消费金融真经》

很高兴在我的职业生涯中认识了译者张宇,在我进行信用风险评分卡开发工作中,给予我宝贵的指导和建议。我加入博达这家深耕于西南地区并有着8年成熟风控经验的信贷公司,短短2个月的时间内,全面了解了消费金融行业的风控体系搭建,包括用户申请评分卡、催收评分卡在企业全业务流程运作中发挥的重大作用。并接触到NPV...

2017-12-01 19:19:02

阅读数 3421

评论数 1

评分卡上线后如何进行评分卡的监测

我们的评分卡上线后,如何对评分卡的效果进行有效监测,监测哪些指标,监测的指标阈值达到多少我们需要对现有评分卡进行调整更新?这是我们在评分卡上线后需要持续性监测、关注的问题,今天就来跟大家分享一下互金行业评分卡监测的常用手段。1. 模型稳定性包括评分卡得分分布的PSI(Population S...

2017-10-26 17:48:34

阅读数 7772

评论数 2

数据分析中非常实用的自编函数和代码模块整理

搞了接近四个周的模型开发工作,今天整理代码文件,评分卡模型基本告一段落了。那么在模型开发或者是我们日常的数据分析工作中,根据我们具体的业务需求,经常会重复地用到某些模块的功能。而这些模块的功能在R的packages里是没有的,这个时候,我们一般是通过自己写代码实现功能。通俗的说,在数据分析工作中,...

2017-08-06 18:03:26

阅读数 1422

评论数 4

懒癌必备-dplyr和data.table让你的数据分析事半功倍

最近Erin在做信用风险评级模型的开发,几千行的代码敲的我头晕眼花。作为一个懒癌晚期,并且追求高效率的数据er,怎么能受得了浪费时间去造轮子呢。接下来,我就为大家分享几个我在工作当中最常用来做数据分析用到的包,dplyr和data.table,我保证你get到这两个包后,就再也不想用R里面自带的基...

2017-08-06 12:32:40

阅读数 2081

评论数 0

评分卡模型开发-主标尺设计及模型验证

在第五步中开发的信用风险评分卡模型,得到的是不同风险等级客户对应的分数,我们还需要将分数与违约概率和评级符号联系起来,以便差异化管理证券公司各面临信用风险敞口的客户,这就需要对证券公司各面临信用风险敞口业务中的个人客户开发一个一致的主标尺。最容易理解、最容易操作的方式就是根据违约概率从低到高分为不...

2017-08-03 01:24:32

阅读数 4381

评论数 0

评分卡模型开发-基于逻辑回归的标准评分卡实现

由逻辑回归的基本原理,我们将客户违约的概率表示为p,则正常的概率为1-p。因此,可以得到: 此时,客户违约的概率p可表示为: 评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义,即可表示为下式: 其中,A和B是常数。式中的负号可以使得违约概率越低,得分越高。通常情...

2017-08-03 01:05:01

阅读数 32367

评论数 5

评分法模型开发-WOE值计算

对入模的定量和定性指标,分别进行连续变量分段(对定量指标进行分段),以便于计算定量指标的WOE和对离散变量进行必要的降维。对连续变量的分段方法通常分为等距分段和最优分段两种方法。等距分段是指将连续变量分为等距离的若干区间,然后在分别计算每个区间的WOE值。最优分段是指根据变量的分布属性,并结合该变...

2017-08-03 00:12:47

阅读数 13359

评论数 2

评分卡模型开发-定性指标筛选

library(InformationValue) library(klaR) credit_risk<-ifelse(train_kfolddata[,"credit_risk"]=="good",0,1) #将违约状态变量用0和1表示,1表示违约。...

2017-08-03 00:02:31

阅读数 7304

评论数 0

评分卡模型开发-定量指标筛选

模型开发的前三步主要讲的是数据处理的方法,从第四步开始我们将逐步讲述模型开发的方法。在进行模型开发时,并非我们收集的每个指标都会用作模型开发,而是需要从收集的所有指标中筛选出对违约状态影响最大的指标,作为入模指标来开发模型。接下来,我们将分别介绍定量指标和定性指标的筛选方法。library(Inf...

2017-08-02 23:40:04

阅读数 10697

评论数 1

评分卡模型开发-数据集准备

在缺失值和处理完成后,我们就得到了可用作信用风险评级模型开发的样本总体。通常为了验证评级模型的区分能力和预测准确性,我们需要将样本总体分为样本集和测试集,这种分类方法被称为样本抽样。常用的样本抽样方法包括简单随机抽样、分层抽样和整群抽样三种。 简单随机抽样:smp1<-sample(nro...

2017-08-02 23:18:33

阅读数 5513

评论数 0

评分卡模型开发-用户数据异常值处理

缺失值处理完毕后,我们还需要进行异常值处理。异常值是指明显偏离大多数抽样数据的数值,比如个人客户的年龄大于100时,通常认为该值为异常值。找出样本总体中的异常值,通常采用离群值检测的方法。 离群值检测的方法有单变量离群值检测、局部离群值因子检测、基于聚类方法的离群值检测等方法。由于本文采用的样本...

2017-08-02 23:09:32

阅读数 5740

评论数 0

评分卡模型开发-用户数据缺失值处理

在我们搜集样本时,许多样本中一般都含有缺失值,这种情况在现实问题中非常普遍,这会导致一些不能处理缺失值的分析方法无法应用,因此,在信用风险评级模型开发的第一步我们就要进行缺失值处理。缺失值处理的方法,包括如下几种。 (1) 直接删除含有缺失值的样本。 (2) 根据样本之间的相似性填补缺失值。 ...

2017-08-02 22:51:11

阅读数 8044

评论数 0

R中时间序列分析-趋势预测ARIMA

时间序列预测(time series forecasting) ARIMA模型(Autoregressive Integrated Moving Average Model) ARIMA模型,将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建...

2017-07-25 17:46:20

阅读数 2686

评论数 0

R中季节性时间序列分析及非季节性时间序列分析

序列分解1、非季节性时间序列分解 移动平均MA(Moving Average)①SAM(Simple Moving Average) 简单移动平均,将时间序列上前n个数值做简单的算术平均。 SMAn=(x1+x2+…xn)/n②WMA(Weighted Moving Average) 加权...

2017-07-25 17:45:26

阅读数 5964

评论数 0

R中时间序列分析-趋势分析Trend

趋势分析(Trend)常用趋势的数学函数 线性函数 y=ax+b 指数函数 y=a^x 二次函数 y=ax^2+bx+c曲线拟合方法 nls可以拟合任意表达式的曲线nls(formula,start,data) formula 曲线表达式 start 参数的初始点,可以随便设置一个...

2017-07-25 17:45:09

阅读数 4440

评论数 0

R中协同过滤算法

协同过滤(Collaborative Filtering,简称CF)协同过滤常常被用于分辨某位特定顾客可能感兴趣的东西,这些结论来自于其他相似顾客对哪些产品感兴趣的分析。数据结构 协同过滤,主要收集每个用户对使用过的物品的评价。 评价可以理解为经常在电商网站上出现的,五星级的评分。 注意:不...

2017-07-25 17:44:51

阅读数 832

评论数 0

R关联规则算法(支持度、自信度、提升度)

关联规则(Association Rules) 两个不相交的非空集合X、Y,如果有X->Y,就说X->Y是一条关联规则。关联规则的强度用支持度(support)和自信度(confidence)来描述,关联规则是否可用,使用提升度(Lift)来描述。 挖掘定义 给定一个数据集,找出...

2017-07-25 17:44:34

阅读数 4261

评论数 0

R聚类算法-DBSCAN算法

DBSCAN算法(Density-Based Spatial Clustering of Application with Noise)密度聚类算法 基于密度的聚类算法,K-means和层次聚类对于球状的簇聚类效果很好,DBSCAN可以用于更多复杂形状簇的聚类。R中实现DBSCAN算法的API...

2017-07-25 17:44:00

阅读数 1360

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭