自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Erin的博客

数据分析,机器学习

  • 博客(59)
  • 资源 (2)
  • 收藏
  • 关注

原创 风控策略中如何制定差异化利率定价方案

风控策略中如何制定差异化利率定价方案前言一、框架设计二、流程设计三、方案测算四、策略上线总结前言一个产品上线后,随着规模的扩大,基于风险收益的匹配原则,以及差异化营销的管理要求,除了授信额度策略之外,我们还需要制定差异化利率、差异化期数、差异化还款方式等一系列的组合拳策略。那么,如何结合模型和决策引擎,设计并上线一版差异化的利率方案,今天我们来讲讲这个项目。一、框架设计上期我们讲了如何建立一个基于客户风险等级分层的模型,制定差异化利率方案,有朋友一定会直接想到用模型分段来进行分档。针对一个稳健

2021-02-04 15:58:25 4179 4

原创 中国消费金融的未来,已经到来——《消费金融真经》

很高兴在我的职业生涯中认识了译者张宇,在我进行信用风险评分卡开发工作中,给予我宝贵的指导和建议。我加入博达这家深耕于西南地区并有着8年成熟风控经验的信贷公司,短短2个月的时间内,全面了解了消费金融行业的风控体系搭建,包括用户申请评分卡、催收评分卡在企业全业务流程运作中发挥的重大作用。并接触到NPV模型在小额贷款公司的应用,根据NPV模型进行风险定价,此为国内小额信贷行业成功开发并上线NPV模型的创新

2017-12-01 19:19:02 5538 1

原创 信用标准评分卡模型开发及实现

一、信用风险评级模型的类型信用风险计量体系包括主体评级模型和债项评级两部分。主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡、B卡、C卡和F卡;债项评级模型通常按照主体的融资用途,分为企业融资模型、现金流融资模型和项目融资模型等。 A卡,又称为申请者评级模型,主要应用于相关融资类业务中新用户的主体评级,适用于个人和机构融资主体。 B卡,又称为行为评级模型

2017-08-03 02:07:58 80681 6

原创 评分卡上线后如何进行评分卡的监测

我们的评分卡上线后,如何对评分卡的效果进行有效监测,监测哪些指标,监测的指标阈值达到多少我们需要对现有评分卡进行调整更新?这是我们在评分卡上线后需要持续性监测、关注的问题,今天就来跟大家分享一下互金行业评分卡监测的常用手段。1. 模型稳定性包括评分卡得分分布的PSI(Population Stability Index),

2017-10-26 17:48:34 12529 4

原创 数据分析中非常实用的自编函数和代码模块整理

搞了接近四个周的模型开发工作,今天整理代码文件,评分卡模型基本告一段落了。那么在模型开发或者是我们日常的数据分析工作中,根据我们具体的业务需求,经常会重复地用到某些模块的功能。而这些模块的功能在R的packages里是没有的,这个时候,我们一般是通过自己写代码实现功能。通俗的说,在数据分析工作中,我们经常会通过调用自编函数来实现某些高级的功能。一般在结束某项数据分析的工作之后,对于使用频率比较高的模块功能,我会将实

2017-08-06 18:03:26 2229 4

原创 懒癌必备-dplyr和data.table让你的数据分析事半功倍

最近Erin在做信用风险评级模型的开发,几千行的代码敲的我头晕眼花。作为一个懒癌晚期,并且追求高效率的数据er,怎么能受得了浪费时间去造轮子呢。接下来,我就为大家分享几个我在工作当中最常用来做数据分析用到的包,dplyr和data.table,我保证你get到这两个包后,就再也不想用R里面自带的基础包函数进行数据分析了!!

2017-08-06 12:32:40 3408

原创 评分卡模型开发-主标尺设计及模型验证

在第五步中开发的信用风险评分卡模型,得到的是不同风险等级客户对应的分数,我们还需要将分数与违约概率和评级符号联系起来,以便差异化管理证券公司各面临信用风险敞口的客户,这就需要对证券公司各面临信用风险敞口业务中的个人客户开发一个一致的主标尺。最容易理解、最容易操作的方式就是根据违约概率从低到高分为不同的区间,这就相当于把违约概率这把尺子标上刻度,用这把尺子可以把证券公司需承担信用风险敞口的不同业务中的

2017-08-03 01:24:32 8614

原创 评分卡模型开发-基于逻辑回归的标准评分卡实现

由逻辑回归的基本原理,我们将客户违约的概率表示为p,则正常的概率为1-p。因此,可以得到: 此时,客户违约的概率p可表示为: 评分卡设定的分值刻度可以通过将分值表示为比率对数的线性表达式来定义,即可表示为下式: 其中,A和B是常数。式中的负号可以使得违约概率越低,得分越高。通常情况下,这是分值的理想变动方向,即高分值代表低风险,低分值代表高风险。 逻辑回归模型计算比率如下所示:

2017-08-03 01:05:01 55143 11

原创 评分法模型开发-WOE值计算

对入模的定量和定性指标,分别进行连续变量分段(对定量指标进行分段),以便于计算定量指标的WOE和对离散变量进行必要的降维。对连续变量的分段方法通常分为等距分段和最优分段两种方法。等距分段是指将连续变量分为等距离的若干区间,然后在分别计算每个区间的WOE值。最优分段是指根据变量的分布属性,并结合该变量对违约状态变量预测能力的变化,按照一定的规则将属性接近的数值聚在一起,形成距离不相等的若干区间,最终得

2017-08-03 00:12:47 22779 2

原创 评分卡模型开发-定性指标筛选

library(InformationValue)library(klaR)credit_risk<-ifelse(train_kfolddata[,"credit_risk"]=="good",0,1)#将违约状态变量用0和1表示,1表示违约。tmp<-train_kfolddata[,-21]data<-cbind(tmp,credit_risk)data<-as.data.fram

2017-08-03 00:02:31 10989

原创 评分卡模型开发-定量指标筛选

模型开发的前三步主要讲的是数据处理的方法,从第四步开始我们将逐步讲述模型开发的方法。在进行模型开发时,并非我们收集的每个指标都会用作模型开发,而是需要从收集的所有指标中筛选出对违约状态影响最大的指标,作为入模指标来开发模型。接下来,我们将分别介绍定量指标和定性指标的筛选方法。library(InformationValue)library(klaR)data(GermanCredit)trai

2017-08-02 23:40:04 16569 2

原创 评分卡模型开发-数据集准备

在缺失值和处理完成后,我们就得到了可用作信用风险评级模型开发的样本总体。通常为了验证评级模型的区分能力和预测准确性,我们需要将样本总体分为样本集和测试集,这种分类方法被称为样本抽样。常用的样本抽样方法包括简单随机抽样、分层抽样和整群抽样三种。 简单随机抽样:smp1<-sample(nrow(GermanCredit),10,replace=F)样本集可表示为:train_data=GermanC

2017-08-02 23:18:33 8545

原创 评分卡模型开发-用户数据异常值处理

缺失值处理完毕后,我们还需要进行异常值处理。异常值是指明显偏离大多数抽样数据的数值,比如个人客户的年龄大于100时,通常认为该值为异常值。找出样本总体中的异常值,通常采用离群值检测的方法。 离群值检测的方法有单变量离群值检测、局部离群值因子检测、基于聚类方法的离群值检测等方法。由于本文采用的样本总体GermanCredit已经进行了数据预处理,即已经做了缺失值和异常值处理,因此,我们以随机产生的样

2017-08-02 23:09:32 8851

原创 评分卡模型开发-用户数据缺失值处理

在我们搜集样本时,许多样本中一般都含有缺失值,这种情况在现实问题中非常普遍,这会导致一些不能处理缺失值的分析方法无法应用,因此,在信用风险评级模型开发的第一步我们就要进行缺失值处理。缺失值处理的方法,包括如下几种。 (1) 直接删除含有缺失值的样本。 (2) 根据样本之间的相似性填补缺失值。 (3) 根据变量之间的相关关系填补缺失值。 直接删除含有缺失值的样本时最简单的方法,尤其是这些样本所

2017-08-02 22:51:11 11958 8

原创 R中时间序列分析-趋势预测ARIMA

时间序列预测(time series forecasting)ARIMA模型(Autoregressive Integrated Moving Average Model) ARIMA模型,将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。install.packages(“forecast”) 拟合曲线的方法 auto.

2017-07-25 17:46:20 7812

原创 R中季节性时间序列分析及非季节性时间序列分析

序列分解1、非季节性时间序列分解 移动平均MA(Moving Average)①SAM(Simple Moving Average) 简单移动平均,将时间序列上前n个数值做简单的算术平均。 SMAn=(x1+x2+…xn)/n②WMA(Weighted Moving Average) 加权移动平均。基本思想,提升近期的数据、减弱远期数据对当前预测值的影响,使平滑值更贴近最近的变化趋势。 用

2017-07-25 17:45:26 18741

原创 R中时间序列分析-趋势分析Trend

趋势分析(Trend)常用趋势的数学函数 线性函数 y=ax+b 指数函数 y=a^x 二次函数 y=ax^2+bx+c曲线拟合方法 nls可以拟合任意表达式的曲线nls(formula,start,data)formula 曲线表达式start 参数的初始点,可以随便设置一个 设置这个参数的目的:(减少递归的次数,加快运算的速度)data 需要拟合的数据data <-

2017-07-25 17:45:09 16531 1

原创 R中协同过滤算法

协同过滤(Collaborative Filtering,简称CF)协同过滤常常被用于分辨某位特定顾客可能感兴趣的东西,这些结论来自于其他相似顾客对哪些产品感兴趣的分析。数据结构 协同过滤,主要收集每个用户对使用过的物品的评价。 评价可以理解为经常在电商网站上出现的,五星级的评分。 注意:不同用户的评分标准不同,所以需要对评分进行标准化处理。 标准化为0-1之间的值。①用户评分向量 ②商品

2017-07-25 17:44:51 2356

原创 R关联规则算法(支持度、自信度、提升度)

关联规则(Association Rules) 两个不相交的非空集合X、Y,如果有X->Y,就说X->Y是一条关联规则。关联规则的强度用支持度(support)和自信度(confidence)来描述,关联规则是否可用,使用提升度(Lift)来描述。 挖掘定义 给定一个数据集,找出其中所有支持度support>=min_support,自信度confidence>=min_confifence的

2017-07-25 17:44:34 13399

原创 R聚类算法-DBSCAN算法

DBSCAN算法(Density-Based Spatial Clustering of Application with Noise)密度聚类算法 基于密度的聚类算法,K-means和层次聚类对于球状的簇聚类效果很好,DBSCAN可以用于更多复杂形状簇的聚类。R中实现DBSCAN算法的API “fpc”包 install.packages(“fpc”) dbscan(data,eps,M

2017-07-25 17:44:00 6273 2

原创 R聚类算法-层次聚类算法

层次聚类(Hierarchical Clustering算法) 层次聚类算法又称为树聚类算法,它根据数据之间的距离,透过一种层次架构方式,反复将数据进行聚合,创建一个层次以分解给定的数据集。 常用于一维数据的自动分组层次聚类方法 hclust(dist)dist 样本的距离矩阵距离矩阵的计算方式 dist(data)data 样本数据层次聚类的代码实现:pColumns <- c('

2017-07-24 16:00:48 2521

原创 R聚类算法-(K-Means算法)

聚类算法,属于无监督学习,使用迭代 K-Means算法 K-Means算法的目标,是把n个样本点划分到k个类中,使得每个点都属于离它最近的质心对应的类,以之作为聚类的标准。 质心: 指一个类,内部所有样本点的均值。 kmeans(x,centers)x 待聚类的训练样本centers 聚类的个数,也就是要分成多少类代码实现:pColumns <- c('Sepal.Lengt

2017-07-24 15:48:18 1506

原创 R分类算法-神经网络算法

神经网络(Artifical Neural Network) 神经网络(人工神经网络),是一种模仿生物网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型。 现代神经网络,是一种非线性的数据建模工具,常用来对输入和输出间复杂的关系进行建模。用来探索数据的未知模式。神经网络用到的包”nnet” nnet(formula,data,size,decay,maxit,linout,

2017-07-24 15:16:37 4356 1

原创 R分类算法-Logistic回归算法

逻辑回归 Logistic Regression 所谓LR,就是一个被Logistic方程归一化后的线性回归,可以将非线性的问题转化为线性问题。 优点: 算法易于实现和部署,执行效率和准确度高 缺点: 离散型的数据需要通过生产虚拟变量的方式来使用。 R API glm(formula,data)formula 建模表达式data 训练数据★glm会自动帮我们把变

2017-07-24 14:53:32 1224

原创 R分类算法-决策树算法

决策树(Decision Tree) 它通过对训练样本的学习,并建立分类规则,然后依据分类规则,对新样本数据进行分类预测,属于有监督学习。 优点: 决策树有易于理解和实现; 决策树可处理数值型和非数值型数据;决策树在party包里 install.packages(“party”) ctree(formula,data)formula 建模表达式data 训练数据

2017-07-24 14:00:28 849

原创 R分类算法-KNN算法

分类 监督学习(Supervised Learning): 从给定标注的训练集中学习出一个函数,根据这个函数为新数据进行标注。 无监督学习(Unsupervised Learning): 从给定无标注的训练集中学习出一个函数,根据这个函数为所有数据标注。 分类(Classification): 分类算法通过对已知类别训练数据集的分析,从中发现分类规则,以此预测 新数据的类别,分类算法属

2017-07-24 13:42:16 1497

原创 R中如何利用余弦算法实现文章的自动摘要

自动摘要 自动摘要,就是利用计算机自动地从原始文献中提取摘要。 例如百度经验中的经验摘要,简短的描述了该经验的主要解决问题。 自动摘要的算法原理 余弦相似度(Cosine Similarity)算法步骤:获取到需要摘要的文章对该文章进行词频统计对该文章进行分句 根据中文的标点符号,一般我们采用。,?进行分句计算分句与文章之间的余弦相似度代码实现:library(tm)librar

2017-07-24 13:19:32 623

原创 R中如何利用余弦算法实现相似文章的推荐

推荐(Recommended) 介绍好的人或事物,希望被任用或接受。在目前的数据挖掘领域, 推荐包括相似推荐以及协同过滤推荐。 相似推荐(Similar Recommended) 当用户表现出对某人或者某物感兴趣时,为它推荐与之相类似的人,或者物, 它的核心定理是:人以群分,物以类聚。 协同过滤推荐(Collaborative Filtering Recommendation) 利用已

2017-07-24 13:02:55 1723

原创 R文本挖掘-文章关键词提取

关键词提取(keywords)词频(Term Frequency)逆文档频率(Inverse Document Frequency) IDF就是每个词的权重,它的大小与一个词的常见程度成反比。TF-IDF(Term Frequency-Inverse Document Frequency) 权衡某个分词是否关键词的指标,该值越大,是关键词的可能性就越大。如何理解呢,举个例子: 有

2017-07-24 12:18:20 7372 2

原创 R文本挖掘-中文分词Rwordseg

我们的数据分析工作,不仅仅有对数据的分析,还有对文字资料整合的统计分析。在进行词频统计之前,有一项必须要做的工作就是中文的分词。 1.语料库的处理 语料库 语料库是我们要分析的所有文档的集合 中文分词 将一个汉字序列切分成一个一个单独的词 停用词 数据处理的时候,自动过滤掉某些字或词,包括泛滥的词,例如web, 网站等,又如语气助词、副词、介词、连接词等,例如的,地,得。R 中的

2017-07-24 12:00:02 1566

原创 如何在R中绘制热力地图

一、首先绘画出地图map 地图(map) 按一定的比例运用符号、颜色、文字注记等描绘显示地球表面的自然地理、 行政区域、社会经济状况的图形。 地图绘制思路: ① 绘制需要展示的地图,获取地图对象,获取每个区域的名字以及顺序; ② 在每个区域的名字和顺序后面,加上我们需要展示的数据以及经纬度; ③ 根据数据的大小,设置每个区域展示的颜色的深浅,以区分每个区域; √ 对数据进行标准化

2017-07-18 12:00:40 9762 5

原创 如何在R中绘制树图(TreeMap)

树图(TreeMap) 通过矩形面积的大小,以及填充颜色的深浅,来显示节点的统计数据,通过嵌套层次来显示分组的层级的可视化图形。 for example: 某公司产品在世界六大洲的销售情况,矩形的大小表示人口的数量,颜色的深浅表示销售额的多少。 那么如何绘制树图呢? 首先绘制树图需要的包: install.packages(“treemap”) 树图函数: treemap(x,ind

2017-07-18 11:42:17 7627 1

原创 疑难杂症-R中的Rwordseg包安装

一、通过install.packages安装步骤: 1、在R中先装rJava包 install.packages(“rJava”) 2、没有装JDK的要到这里去下载: http://www.Oracle.com/technetwork/Java/javase/downloads/jdk8-downloads-2133151.html R是64位的就要下64位的JDK,下载完成后配置环

2017-07-18 01:13:34 1428

原创 R中的线性回归分析

回归分析(regression analysis)回归分析是研究自变量与因变量之间关系形式的分析方法,它主要是通过建立因变量Y与影响它的自变量Xi(i=1,2,3...)之间的回归模型,来预测因变量Y的发展趋势。简单线性回归模型Y=a+b*X+eY——因变量X——自变量a——常数项,是回归直线在纵轴上的截距b——回归系数,是回归直线的斜率e——随机误差,即随机因

2017-07-17 23:20:19 3042 2

原创 R中五种常用的统计分析方法

1、分组分析根据分组字段,将分析对象划分为不同的部分,以进行对比分析各组之间差异性的一种分析方法。常用统计指标:计数 length求和 sum 平均值 mean标准差 var方差 sd分组统计函数aggregate(分组表达式,data=需要分组的数据框,function=统计函数)参数说明formula:分组表达式,格式:统计列~分组列1+分组列2+.

2017-07-17 22:59:56 24794

原创 Python中的结构分析pivot_table

结构分析是在分组以及交叉的基础上,计算各组成部分所占的比重,进而分析总体的内部特征的一种分析方法。这个分组主要是指定性分组,定性分组一般看结构,它的重点在于占总体的比重。我们经常把市场比作蛋糕,市场占有率就是一个经典的应用。另外,股权也是结构的一种,如果你的股票比率大于50%,那就是有绝对的话语权。import numpyimport pandasdata = panda

2017-07-14 15:57:23 3654

原创 如何在Python中实现RFM分析

RFM分析RFM分析是根据客户活跃程度和交易金额贡献,进行客户价值细分的一种方法;可以通过R,F,M三个维度,将客户划分为8种类型。RFM分析过程1.计算RFM各项分值R_S,距离当前日期越近,得分越高,最高5分,最低1分F_S,交易频率越高,得分越高,最高5分,最低1分M_S,交易金额越高,得分越高,最高5分,最低1分

2017-07-14 15:33:13 15210 22

原创 如何在Python中实现矩阵分析

矩阵分析根据事物(如产品,服务等)的两个重要属性(指标)作为分析依据,进行关联分析,找出解决问题的一种分析方法。如何使用Python进行矩阵分析呢各个省份的GDP-人口矩阵分析,代码实现如下:import pandasimport matplotlibimport matplotlib.pyplot as pltmainColor = (42/256, 87/256, 14

2017-07-14 15:18:21 1916

原创 Python中的相关分析correlation analysis

相关分析(correlation analysis)研究两个或两个以上随机变量之间相互依存关系的方向和密切程度的方法。线性相关关系主要采用皮尔逊(Pearson)相关系数r来度量连续变量之间线性相关强度;r>0,线性正相关;rr=0,两个变量之间不存在线性关系,并不代表两个变量之间不存在任何关系。相关分析函数DataFrame.corr()Series.corr

2017-07-14 15:13:38 47319

原创 Python中的交叉分析pivot_table

4、交叉分析通常用于分析两个或两个以上,分组变量之间的关系,以交叉表形式进行变量间关系的对比分析;从数据的不同维度,综合进行分组细分,进一步了解数据的构成、分布特征。交叉计数函数:pivot_table(values,index,columns,aggfunc,fill_value)参数说明:values:数据透视表中的值index:数据透视表中的行columns:

2017-07-14 14:55:01 5242

信用风险标准评分卡模型的开发及实现

基于R语言的信用风险标准评分卡模型的开发及代码实现,适用于互联网金融行业的评分卡模型开发。

2017-08-04

Rwordseg下载包

R中无法通过install.packages安装Rwordseg包,可以下载Rwordseg包的zip文件,通过R中的(install packages from local files)功能,进行离线安装,亲测成功。

2017-07-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除