天云大数据_【案例分享】天云大数据最佳实践系列之——信用评分模型

本文为天云大数据原创

大数据能力特有的性质,使其正在成为大型银行真正的核心竞争力。银行大数据能力表现在多方面,但大数据思维和数据挖掘能力是最关键、也是最重要的。天云大数据自成立以来,一直深耕于金融领域,积累了大量成功案例。从本期微信开始,分享天云在金融领域的最佳实践系列。

大数据事关银行战略转型全局

进入大数据时代,随着数据处理技术的进步和数据来源的迅速扩展,银行业的一切业务活动都被数字化,商业银行得以在更多领域和更深层次获得并使用更加全面、完整、系统的数据。这些数据涉及客户的方方面面,对这些数据的深入分析可以得到过去不可能获得的知识和无法企及的商机。深入的数据挖掘分析对银行客户营销、产品创新、绩效考核以及风险管理等必将发挥日益重要的作用,数据应用能力将成为银行核心竞争力的重要体现。因此,大数据不是一地一隅的事情,事关银行战略转型全局。

银行大数据能力表现在多方面,但大数据思维和数据挖掘能力是最关键、也是最重要的。大数据价值的实现,关键在于挖掘分析能力。数据挖掘可以推动商业银行战略转型、提升运营管理能力、重塑银行企业文化、促进风险经营的精细化专业化。

天云一体化数据分析挖掘平台

天云大数据分析挖掘平台基于Hadoop/Spark技术框架实现,结合分布式文件系统HDFS和ALLUXI0分层存储技术,实现对结构化及非结构化数据的存储、加载及恢复,保证了数据存储的有效、安全和快速加载。

平台采用图形用户界面交互Free Coding模式,对海量数据的分析及预测建模周期进行工程化管理;支持数据的可视化、清洗、预处理、变换以及统计分析,使用户对数据有更全面的把握,提升数据质量。数据挖掘算法建模方面,平台实现了深度学习、逻辑回归等主流算法的分布式运行,相关模型的参数调优,以及分析及预测模型结果的显示分析和评价。平台同时兼容支持SAS、R、Python等多种建模环境,建设满足企业级建模需求大数据挖掘平台。实现面向业务发展、客户营销、风险预警与识别、产品组合定价等方面的大数据分析与挖掘的持续创新能力。 平台通过简化预测模型生命周期的管理,加快建模速度,实现AI算法生产和分析,辅助企业进行机器学习和建模。通过天云大数据挖掘平台实现一站式建模、移植、验证和优化。

天云信用评分模型

目前,大部分银行信用卡业务使用的风险计量工具有:针对不同客群的申请评分卡、行为评分卡等工具,这些工具主要通过logistic回归模型或专家经验,是基于传统的结构化数据上开发完成。

随着大数据和互联网的发展,出现了很多结构稀疏的数据或非结构化数据,这些数据无法利用传统的统计法分析工具进行处理,需要借助新的数据存储或处理技术来辅助优化评分以助力信用卡业务的风险管控,并通过大数据技术来探索一些新的应用点。

信用评分不仅能够帮助银行划分借款户的信用等级,而且能够直接预测借款户的违约概率。借助天云大数据分析挖掘平台,通过序别化处理、逻辑回归模型、分数转换、模型验证等步骤,实现对信用评分模型的建立和优化。

天云信用评分模型处理流程主要步骤如下图所示:

1、 输入数据和数据清洗—数据准备

本评分卡针对M1-M2信用风险进行评分,根据银行要求,数据选取观察点时客户标记为M1的客户,表现期为1个月。对客户特征维度数据进行收集,目前数据维度包括了开户月龄、近几个月有消费的月份数、近半年最大cd值等十几个客户维度信息。

2、 数据转换:变量序别化处理—数据准备

借款人的各项信息作为信用评分卡的因变量,在信用评分模型建立的过程中,会出现离散变量和连续变量两种形式。对于连续变量,在输入到评分卡模型中时,需要对变量进行序别化转换,使其具有一定的稳定性和可解释性。

方法目标:对M模型数据进行序别化,为后面决策树和逻辑回归提供输入。

方法思路:利用反复试错方式搜索能使信息值极大化的分组数目和组界点。

输入:维度特征X,取值范围[0,m];对应每个整数取值上的客户违约率p。

输出:序别化分段区间界点值。

3、 回归模型建模—模型建立

信用评分卡建模中有很多种实现方法,其中Logistic回归分析运用比较广泛。系统将采用Logistic回归模型进行评分建模。运用Logistic回归模型,因变量是一个二元制的概率,如坏客户或者好客户的概率。

4、 评分卡模型—模型建立

Logistic模型得到的结果Logit(pi)是一个对数值,其取值在-∞到∞。为了使获得的评分更具有实用性,需要对每个属性的分值进行线性比例变换,然后再加上一个偏移量。评分和用于逻辑回归的建模的好坏比的对数(Logit(pi))成比例,而不是好坏比本身。所以分值可以是负数,而且越小的分值代表风险越高。5、 模型验证

a) KS统计量

KS值计量K-S图中好客户与坏客户的积累分布曲线最大垂直差值。K-S图的横轴为10等分百分数,刻度为0%,10%,20%,...,90%,100%,表示累计总客户百分数。纵轴为好客户与坏客户的占比百分数。建好模型后,按照评分从大到小排列客户,检验好客户和坏客户两类客户分布的差异性。

b) ROC曲线和AUC

ROC曲线数据的计算方法是用分数切分点为参变量,计算不同切分点整体数据的实查率和误查率进行绘图。作者 天云大数据 转载请注明出处

天云大数据

天云大数据是专注于大数据分布式计算平台软件、AI算法的国家高新科技企业。孵化并成长于北京云基地的天云大数据是北京祥云工程代表企业,作为秘书长或理事成员参与了中国云产业联盟,中关村大数据产业联盟,国家统计局大数据战略合作企业,中关村-滨海大数据产业技术创新战略联盟,上海大数据产业技术创新战略联盟的筹建。被硅谷GigaOM大数据先锋评论冠以改变中国云计算最有影响力的企业;帮助某全国性股份制商业银行获得了国际化组织IDC的“2014年度中国金融行业最佳创新项目”大奖;2016年荣选由毕马威评选的中国领先金融科技公司50强企业。

更多精彩内容请关注微信公众号:BeagleData_

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值