基于随机森林算法的贷款违约预测模型研究(Give me some credit)

本文实验代码github:https://github.com/dengsiying/give-me-some-credit/tree/master参考链接:从决策树到随机森林                 http://www.cnblogs.com/maybe2030/p/4585705.html 基于随机森林算法的贷款违约预测模型研究 摘要:如何在发放贷款前有效的评价和识别...
摘要由CSDN通过智能技术生成

本文实验代码github:https://github.com/dengsiying/give-me-some-credit/tree/master

参考链接:从决策树到随机森林

                 http://www.cnblogs.com/maybe2030/p/4585705.html 

基于随机森林算法的贷款违约预测模型研究 

摘要:如何在发放贷款前有效的评价和识别借款人潜在的违约风险,计算借款人的违约概率,是现代金融机构信用风险管理的基础和重要环节。本文主要研究借助非平衡数据分类的思想对银行等金融机构的历史贷款数据进行统计分析,并使用随机森林算法建立贷款违约预测模型。实验结果表型,随机森林算法在预测性能上超过了决策树和逻辑回归分类算法。此外通过使用随机森林算法对特征进行重要性排序,可以得到对最终是否违约影响较大的特征,从而能够更有效的进行金融领域的借贷风险判断。

关键词:随机森林,贷款违约预测,数据挖掘

 

Research on loan default prediction model based on random forest algorithm

Abstract: How to evaluate and identify the potential defaultrisk of the borrower before issuing the loan and calculate the defaultprobability of the borrower is the basis and important link of the credit riskmanagement of modern financial institutions. This paper mainly studies thestatistical analysis of historical loan data of banks and other financialinstitutions using the idea of non-equilibrium data classification, and uses arandom forest algorithm to establish a loan default prediction model. Theexperimental results show that the random forest algorithm surpasses thedecision tree and the logistic regression classification algorithm in theprediction performance. In addition, by using the random forest algorithm torank the importance of features, it is possible to obtain features that have agreater impact on the eventual default, so that it can more effectivelydetermine the risk of lending in the financial sector.

Keywords:Random forest, loan default forecast, data mining

引言

随着世界经济的蓬勃发展和中国改革开放的逐渐深入,无论是企业的发展还是从人们消费观念的转变,贷款已经成为企业和个人解决经济问题的一种重要方式。随着银行各种贷款业务的推出和人们日益膨胀的需求,不良贷款也就是贷款违约的概率也随之激增。为了避免贷款违约,银行等金融机构在发放贷款时会对借款人的信用风险进行评估或打分,预测贷款违约的概率并根据结果做出是否发放贷款的判断。如何在发放贷款前有效的评价和识别借款人潜在的违约风险,是金融机构信用风险管理的基础和重要环节,用一套科学的模型和系统来判定贷款违约的风险性可以将风险最小化和利润最大化。

本文主要研究如何借助非平衡数据分类的思想对银行等金融机构的历史贷款数据进行分析,并基于随机森林分类模型预测贷款违约的可能性。本文第一节主要介绍非平衡数据分类和随机森林算法;第二节主要进行数据预处理及数据分析。第三节主要构建预测贷款违约的随机森林分类模型,并得到该模型的评估结果AUC值,通过将随机森林算法与决策树和逻辑回归算法模型比较,得出随机森林算法更优的结论。最后通过对每个特征的重要性进行评估,得出哪些特征对最终是否违约的结果影响较大。第四节总结全文。

1  随机森林算法

1.1  非平衡数据分类

非平衡的数据即数据中某一类(多数类)的数据远远超过另一类(少数类)的数据,在网络入侵检测、金融欺诈交易检测、文本分类等很多领域普遍存在,并且在很多时候,我们只对少数类的分类情况更感兴趣。处理非平衡数据的分类问题可以通过正负样本的惩罚权重解决,思想是在算法实现过程中,对于分类中不同样本数量的类别分别赋予不同的权重,一般是小样本量类别权重高,大样本量类别权重低,然后进行计算和建模。

1.2  随机森林简介

随机森林(Random Forest)算法,是用随机的方式建立一个森林,是一种基于决策树的组合学习算法。随机森林的基本思想是在构造单个树的过程中,随机选取一些变量或特征参与树节点划分,重复多次并保证建立的这些树之间的独立性。在得到随机森林之后,当有一个新的输入样本进入的时候,森林中的每一棵决策树都会对该样本进行判断,得到该样本属于哪一个类的结果,最后看整个森林中属于哪一类的得票最高,就预测该样本为哪一类,其过程如图1所示。

图1 随机森林示意图

1.3 随机森林算法原理及特点

随机森林(Random Forest)算法,包含分类和回归问题,其算法步骤如下:

 

随机森林有以下特点:由上述算法过程可以看出,随机森林的随机性主要体现在两个方面:数据空间的随机性由Bagging(Bootstrap Aggregating)实现,特征空间的随机性由随机子样(Random Subspace)方式实现。对于分类问题,随机森林中的每一个决策树都对新的样本进行分类预测,然后以某种方式将这些树的决策结果集中起来,给出样本的最后分类结果。

1、数据中行(数据记录)和列(变量)两个随机性的引入,使得随机森林不容易陷入过拟合。

2、随机森林具有很好的抗噪声能力。

3、当数据集中存在大量缺失值(

  • 20
    点赞
  • 187
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值