读书笔记之三十二----《信用…

转载 2016年08月29日 12:51:38
第一章 信用评分模型在消费信贷管理中的应用
   从数理分析技术发展的层次上讲,信用评分模型的发展经历了3个历史阶段:
   1、以客户分类为核心的信用分析。使用一些描述性统计方法来对客户资信信息进行简单分析、分类。
   2、以预测模型为核心的信用评分模型。至今是欧美消费信贷管理中使用最广泛、发展最完善的技术。
   3、以决策模型为核心的信用评分模型。不仅通过消费者的行为特征信息来预测其未来信用表现,而且预测信贷决策本身对未来表现也有影响。决策模型与预测模型的根本区别在于,预测模型是根据消费者的历史行为特征来预测其未来信用表现的,未来信用表现只是消费者自身信用特征的函数;而决策模型旨在把决策的影响数量化,未来信用表现不仅是消费者自身特征的函数,而且是决策的函数。决策模型还试图捕捉同一决策对不同消费者的不同影响。因为消费者的偏好和财务状况不同,所以对决策的敏感度各异,这就是所谓的交互效应。

   按照模型所预测的未来表现结果划分,有:
   1、风险评分模型:对违约拖欠的风险概率进行预测;
   2、收益评分模型:对消费者给信贷机构带来收益的潜力大小进行预测;
   3、流失倾向评分模型:对现有客户在未来一定时期内流失的概率进行预测;
   4、市场反应评分模型:对目标客户接受信贷机构营销的概率进行预测;
   5、转账倾向评分模型:对目标客户把贷款余额从别的银行转账过来的概率进行预测;
   6、循环信贷倾向评分模型:对目标客户或现有客户利用信用卡账户进行循环信贷的概率进行预测;
   7、欺诈评分模型:对信用卡申请或信用卡交易为欺诈行为的概率进行预测。

   按照模型的数据来源划分,有:信用局评分模型、行业共享模型、以银行内部自有数据为评分基础的客户化模型。其中,信用局评分模型与行业共享模型又被称为通用化模型,所有银行都可以使用。在中国,由于数据不集中,只能采用客户化模型。

   按模型的实证化程度划分,有:
   1、专家风险评分模型:适合于没有数据或者数据量及其有限的情况。
   2、半客户化评分模型:在专家模型的基础上,利用银行的现有数据对模型进行验证,并根据验证结果对该模型进行调整。半客户化评分模型综合了专家经验和数据检验结果的模型方式,适合于有一定业务历史、具备一定业务规模,但数据情况尚不充分(如坏的样本量不够800-1000个、或不具备拒绝样本)的资产组合。
    3、完全客户化评分模型:完全根据银行的实际数据、利用先进的模型技术和标准流程开发出来的评分模型。适合于数据充分的资产组合。

    按模型的对象划分,有:账户层次评分模型、客户层次评分模型、消费者层次评分模型。
    信用贷款无抵押、汽车贷款抵押品不断贬值、住房贷款抵押品价格不断增加。
    信用评分模型在信用卡生命周期管理中的应用:
  • 拓展客户期:目标客户、产品/激励、利率/年费/其他收费、邮寄与否;
  • 审批客户期:批准与否、初始信用额度高低、交叉销售;
  • 管理客户期:提高/降低信用额度、超额透支授信、反欺诈、重新定价、激活/挽留、坏账催收、续发信用卡;
    信用评分模型在汽车贷款中的应用:批准/拒绝贷款申请、决定贷款额、首付额和贷款额占汽车价值的比例、决定贷款期限、贷款利率
    信用评分模型在住房贷款中的应用:评估申请者的风险、行为风险评分(对违约拖欠的客户进行催收的策略制定)
第二章 信用评分模型的数据基础
   一、数据一般分成“观察期”和“表现期”两个时间段。
 [转载]读书笔记之三十二----《信用评分模型技术与应用》(一)
  二、数据来源:信用局数据、行业共享数据和消费信贷机构内部的数据。
  [转载]读书笔记之三十二----《信用评分模型技术与应用》(一)
[转载]读书笔记之三十二----《信用评分模型技术与应用》(一)
 三、数据元素
 四、数据词典
 五、数据集市
       在消费信贷的管理实践中,以信用卡业务为例,常用的比较重要的数据集市有:
1、申请者资料数据库
  • 与其他数据库连接的公共码键;
  • 身份信息:如姓名、性别、年龄、出生日期、婚姻状况、证件号码等;
  • 联系信息:如通信地址、家庭住址、工作地址、家庭电话、工作电话等;
  • 决策参考信息:如学历、职业、收入、住房状况、有无汽车、在现住址居住的时间长短、在现单位工作的时间长短等;
  • 决策信息:如批准/拒绝的决定、初始的信用额度、利率和收费条款;
  • 其他相关信息:如申请开户的时间、申请渠道等;
  • 信用局信用历史信息。 
2、信用卡账户的主档案数据库
  • 与其他数据库连接的公共码键;
  • 账户基本信息:如账户号码、账户类别、开户时间、信用额度、信用额度调整额、信用额度调整时间等;
  • 账户总结信息:过去24个周期(或月份)每个周期的未清偿贷款余额、最低应付款额、付款额、交易额、现金提取额、购物额、现金提取次数、购买次数等;
  • 账户账务信息:利息收入情况、各项费用收入情况、各项费用支出情况、资金成本等;
  • 账户负面信息:过去24个周期(或月份)每个周期的账户地位(拖欠与否、多少周期拖欠等)、拖欠额、超额透支额、支票被退回与否、账户激活与否、冻结代码等;
  • 各种模型评分:如信用局风险、收益、破产评分(如果存在信用局并向信用局购买信用评分的话)、各种行为风险、收益、流失倾向等评分(如果开发行为评分的话)。
3、信用卡的交易数据库
  • 与其他数据库连接的公共码键;
  • 账户号码、交易代码、商户代码等;
  • 交易日期、交易日期、交易金额、交易种类、交易地点、交易商户类别、交易国家、交易货币、交易方式、授信决策等。
4、信用卡的欺诈数据库、
  • 与其他数据库连接的公共码键;
  • 账户号码;
  • (第一次)欺诈交易发生的日期、时间;(出于数据加工简易化的考虑)
  • 欺诈的种类;
  • 相关交易信息和欺诈风险评分;
  • 授信决策。
5、信用卡的营销数据库
  • 与其他数据库连接的公共码键;
  • 营销决策的依据:如信用局的信用记录、银行内部客户记录等;
  • 营销决策:如提前批准、各种信用条款(利率、优惠、收费、回报等);
  • 营销结果:如客户反应(接受与否)、开户与否、激活与否、转账与否等。
6、其他非信用卡的各种银行内部客户数据库
  • 储蓄客户数据库;
  • 存款客户数据库;
  • 工资直接代存客户数据库;
  • 汽车贷款客户数据库;
  • 住房贷款客户数据库;
  • 耐用消费品贷款客户数据库。
六、数据仓库
第三章 数据挖掘简介
第四章 数据挖掘与信用评分模型的技术
  消费信贷管理实践中常用的数据挖掘和评分模型技术和方法包括:
  • 对数据进行描述和总结的技术;
  • 对变量进行栏位划分和信息转换的技术;
  • 主成分分析;
  • 因子分析;
  • 变量类聚分析;
  • 类聚分析;
  • 逻辑回归模型;
  • 神经网络模型;
  • 判别分析;
  • 决策树模型;
  • 共性过滤分析;
  • 多元回归模型;
  • 基因算法;
  • RFM分析;
  • 存活分析;
  • 时间系列分析:趋势分析、季节性分析、ARIMA模型。
一、对数据进行描述和总结的技术
   常用的技术方法有:频率、均值、中位数、方差、极大值、极小值、1/100区间、1/10区间、1/4区间、多维交叉表、相关系数。
   这些基本统计手段常用于:对数据的集中度和离散度等分布特征进行简单的描述;对数据的质量进行稽核;对数据间的关系进行初步的探索;产生直观的报表。
   优点:直观了解数据的特征;简单明了容易使用;对数据质量检查有很强大的功能。
   缺点:对数据分析和探索停留在初步阶段;反映的信息是一维的,不能对信息进行系统化地综合。
二、对变量进行栏位划分和信息转化的技术
   适用于连续性变量、类别性变量。转化后可以计算log(odds)。
   优点:有效捕捉数据中蕴藏的非线性关系;有效捕捉数据中蕴含的非单调性关系;有效将变量标准化,使原始数值规模不相同的变量取得一致的统计数值;有效将类别性变量包括到模型中;有效处理缺失值和特殊值;有效提高模型的“抗震荡性”;有效提高模型的可解释性。
   缺点:劳动密集性的过程,劳动量大;资源密集性的过程,耗费多的计算机资源和人力资源;有一定主观判断的成分(划分成多少个栏位、如何划分、每个栏位的样本量、划分后的表现是否合理等);会损失部分有用的信息;对模型的实施有额外的要求。
三、主成分分析、因子分析、变量类聚分析
  这3种统计方法主要是用来减少变量数目的统计技术。
  优点:迅速从大量的候选变量中选择有限数目的变量代表;在极大程度上保留有用的信息;降低了模型最终候选变量的相关性,提高模型的“抗震荡性”和稳定性。
  缺点:不能处理缺失值和类别性变量,必须通过信息转换手段把缺失值或类别性变量值转换成数量值后才能使用这3种统计方法;对“信息维度”的解释存在一定的主观性。
四、类聚分析
   常用的类聚分析方法有等级性类聚(呈树型)和非等级性类聚(类聚内的数据观察点之间的总距离最小化)。
   优点:对数据的统计分布不需要作任何假设;不需要任何表现变量的信息;容易使用。
   缺点:多数类聚分析技术对极端值比较敏感;多数受“初始种子”的影响较大;不能处理缺失值或类别性变量,需转换成数量值后才能适用;对类聚结果和“相似性”的解释存在一定的主观性。
五、逻辑回归模型
  适用于二元性目标变量。
  优点:预测结果是介于0和1之间的概率;可以适用于连续性或类别性自变量;容易使用,容易解释。
  缺点:对模型中自变量的多维相关性较为敏感,需要利用因子分析或变量类聚分析等手段来选择代表性的自变量,以减少候选变量之间的相关性;预测结果的概率转换呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着log(odds)值的变化,概率的变化很小,而在中间概率的变化很大。
六、神经网络模型
  神经网络模型是一种把各种投入要素通过复杂的网络转换成产出的信息加工结构。在智能型交易欺诈预测模型中有应用。
[转载]读书笔记之三十二----《信用评分模型技术与应用》(一)
   优点:有效捕捉数据中非线性、非可加性的数量关系;适用于二元性、多元性和连续性的目标变量;能处理连续性和类别性的预测变量。
   缺点:一个黑箱方案,难以理解,难以得到直观的解释;如果不经过仔细控制,容易微调于样本数据,从而不具备充分的“抗震荡性”和稳定性。
七、判别分析
   是一种用来区分、判断个体所属类别的统计技术。判别分析在市场营销分析、信用风险评分模型等领域都可以应用。
   优点:适用于二元性或多元性目标变量,能够判断、区分个体应该属于多个不同小组中的哪一组,而逻辑回归只能预测二元性的目标变量。
   缺点:假设自变量的分布为正态分布,而实践中的数据往往不是完全的正态分布。尽管判别分析时对轻微的偏离正态分布具有一定的抗震荡性,但严重的偏离可能导致统计结果的不可靠性;如果使用stepwise功能,则有过分微调的可能;多维相关性可能导致模型的不稳定性和不可靠性。
八、决策树模型
  是对总体进行连续的分割,以预测一定目标变量的结果的统计技术。
  优点:浅层的决策树视觉上非常直观,而且容易解释;对数据的结构和分布不需作任何假设;可以容易地转化成商业规则;可以捕捉住变量间的相互作用。
  缺点:深层的决策树视觉上和解释上都比较困难;决策树容易过分微调于样本数据而失去稳定性和抗震荡性;决策树对样本量的需求比较大;处理缺失值的功能非常有限。
九、共性过滤分析
  一种用来预测个体偏好的技术。被广泛应用于电子商务和网络营销中,推荐。
  优点:非常直观,容易理解,容易实施;对数据的分布和结构不需要任何假设。
  缺点:需要较大的样本数量;在样本代表性不足时,或对于“相邻群体”不存在的个体,做出的推荐可能是错误的。
十、多元回归模型
    是一种被广泛应用的统计技术,常被用来预测连续性的目标变量Y,比如收益、循环贷款余额、销售额等。自变量X可以是连续性变量,比如收入,也可以是类别性变量,比如拥有房产与否。由于回归模型中所用的自变量可以有多个,所以叫多元回归模型。
    优点:容易解释,容易使用;自变量可以是连续性的,也可以是类别性的;许多直观的统计指标来衡量模型的拟合度,比如R方,或衡量自变量的显著性,比如p值。
    缺点:不能有效处理缺失值,必须通过一定的数据初加工和信息转换后才能处理;模型往往呈线性关系,比较难把握住数据中的非线性关系和变量间的互动关系,而且模型假定应变量呈正态分布;模型受样本数据中的极端值的影响往往比较大;在自变量有较高相关性的情况下会出现多维相关性的问题,导致模型的稳定性和抗震荡性下降。
十一、基因算法
    基因算法是一种最优化算法,运用了达尔文主义的自然选择和适者生存的原则。
    优点:弹性大,能被广泛应用于解决多样的问题;在解决高维度、高度非线性的、非平滑性的目标函数的最优化问题上具备一定的优势;一般来说能够找到较优的方案。
    缺点:计算量比较大,对计算机功能的要求比较高;不一定能找到全局最优的方案,有时停留在局部最优的方案上。
十二、RFM分析
    近期性 recency、频率性 frequency、货币价值monetary value。是市场营销分析中广泛应用的方法。
    优点:抓住了最重要的预测市场的因素;即使没有历史的市场反应数据,仍然可以组建较好的RFM矩阵表作为市场营销决策的依据;非常直观,容易理解,符合直觉;容易发展和实施。
    缺点:仅仅考虑3个要素,忽略了其他潜在有一定预测力的要素;没有考虑市场营销决策本身对市场反应的影响;没有明确地以模型框架来展现目标变量和预测变量之间的关系。
十三、存活分析
    是一种预测距离某种事件发生的时间的长短的统计技术。存货分析一般涉及以下4个方面的因素:危险函数、存活函数、概率密度函数、平均剩余生命。
   多数存活分析在应用上面临两个数据问题:一是观察期的不完整;二是样本的缺失。利用存活分析组建回归模型的常用方法有半参数性危险比例回归模型和参数性回归模型。两种方法都可以用来估计距离相关事件发生的时间长短,所不同的是,前者不需要确定存活函数的具体形式,因此在关于存活函数曲线的信息不充分的情况下有一定的优势;后者需要明确确定存活函数的具体形式,对信息量的要求更高,但如果对函数形式的界定正确,则估计的准确性更高。
     存货分析在金融管理上主要被用于预测信用卡客户流失的时间和住房贷款客户提前付款的时间。一般的流失模型或提前付款模型(比如逻辑回归)常常预测该事件在一定的时间内是否会发生,而存活分析预测的是该事件什么时候发生。
     优点:预测事件发生的时间点;可以比较有效地处理观察期不完整或样本缺失的问题。
     缺点:可能比预测二元性结果的模型的预测力弱;计算量比较大。
十四、时间系列分析
   一种用来分析与时间密切相关的数据系列,以过去来预测未来的统计技术。常被用来预测国民生产总值、经济增值率、总需求、股票指数、销售量等。时间系列分析中的两个重要因素:趋势分析、季节性分析。除此之外,还可以通过自我回归法(AR)、移动平均法(MA),ARMA和ARIMA等模型刻画出来。具体的做法是对趋势分析和季节性分析以后的剩余值进行进一步的回归分析。
    时间序列分析常被用于宏观经济预测、金融市场预测、市场营销预测之中,在信用卡管理中主要用于对信用卡消费额和贷款余额的预测。
    优点:可以分层次地捕捉时间系列中的趋势因素、季节性因素和剩余因素;可以根据过去的数据预测未来;多数时间系列模型的应用上有比较丰富的数据。
    缺点:预测对象必须与时间密切相关,不适用于非时间性的数据;必须满足静态的假设,而该假设在实践中不总能满足。

相关文章推荐

Spark的最短路径详解

import org.apache.spark.graphx._   import org.apache.spark.SparkContext   import org.apache.log4j.{L...

信用是金融市场的唯一生存法则 是企业和个人的“经济身份证”

信用是一个经济范围里最重要的价值手段,还有一种对经济行为的价值和存在、发展的一种理念。而在金融行业,信用是一种有价产品,以及推动金融市场繁荣和创新的核心价值工具。据资料称,信用分为个人信用和商业行为风...

判别分析、logistic在信用风险评估中的应用

利用判别分析、logistic模型来分析信用风险的文章很多,这类文章应该传入国内最早的方法之一了。但是看期刊文章可以发现,作者都喜欢直接给出结果,至于如何得到结果的过程通常并不是非常的明晰。《Appl...

美国个人信用评分系统及其启示

原文出处:http://www.cssn.cn/gj/gj_gjwtyj/gj_mg/201310/t20131026_593620.shtml  作者简介:杜淼淼,中国建设银行广东省分行。...

信用评分之五--并行逻辑回归

逻辑回归信用评分、广告点击率预估、推荐预估中都有很重要的地位,转腾讯冯杨的一篇逻辑回归并行化的文章。

WOE信用评分卡--R语言实现

--- title: "信用评分模型" author:"junjun" date: "2016年10月3日" output:html_document ---     # 一、数据...

信用评分之二--信用评分中的评分卡中的A卡、B卡和C卡

A卡(Application score card)申请评分卡 B卡(Behavior score card)行为评分卡 C卡(Collection score card)催收评分卡 评分机制的区...

CSDN外包信用体系的根基舆论监督——CSDN外包实践(19)

今天照例在审核众多项目申请的同时, 对一些重点项目进行回访, 目前重点是"正在进行中的项目":前段时间: CSDN最成功的项目一篇里报道的CSDN第1个成交的项目, 今天出现了个小插曲.外包频道最成功...
  • yuandj
  • yuandj
  • 2006-06-06 00:20
  • 1494

笔记︱金融风险控制基础常识——巴塞尔协议+信用评分卡Fico信用分

本笔记源于CDA-DSC课程,由常国珍老师主讲。该训练营第一期为风控主题,培训内容十分紧凑,非常好,推荐:CDA数据科学家训练营 —————————————————————————————————...

手把手教你用R语言建立信用评分模型(完结篇)— —打分卡转换

全部代码请访问我的Github: http://github.com/frankhlchi/R-scorecard (点击原文链接即可)打分卡转换我们在上一部分,我们已经基本完成了建模相关的工作,并...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)