论文复现和点评《基于随机森林模型的个人信用风险评估研究》

本文链接：https://blog.csdn.net/toby001111/article/details/138537253

作者Toby，来源公众号：Python风控模型，论文复现和点评《基于随机森林模型的个人信用风险评估研究》

最近Toby老师看到一篇论文热度比较高，下载量有665次，论文标题是《基于随机森林模型的个人信用风险评估研究》

论文篇幅较长，Toby老师概述一下作者的摘要，并通过自己语音简单复述了这个项目。

摘要：

LendingClub作为美国最大的P2P借贷平台之一（目前lendingclub已转型互联网银行），其风控模型的建立对于平台的稳健运营至关重要。本文基于随机森林算法，结合LendingClub平台的实际数据，建立了一种风控模型，并对其性能进行了评估。实证结果表明，基于随机森林的风控模型比逻辑回归具有较高的预测准确性和稳健性，能够有效降低平台的信用风险，为投资人和借款人提供更加安全可靠的借贷环境。

引言互联网借贷平台的风险管理是保障平台稳健运营的关键环节。LendingClub作为典型的P2P借贷平台，其风险管理模型的构建对于降低信用风险、提高投资人和借款人的信任度至关重要。随机森林作为一种强大的机器学习算法，在金融风控领域得到了广泛应用。本文旨在利用随机森林算法构建LendingClub的风控模型，并评估其性能表现。
相关研究在互联网借贷领域，许多研究已经探讨了不同的风险管理模型和算法。其中，基于机器学习的方法在近年来备受关注。例如，支持向量机、逻辑回归、随机森林等算法被广泛用于信用评分和违约预测。
数据和方法本文采用LendingClub平台的历史借贷数据作为样本，包括借款人的个人信息、信用评分、收入情况等。首先，对数据进行预处理，包括缺失值处理、特征工程等。然后，利用随机森林算法构建风控模型，并采用交叉验证等方法对模型进行优化和评估。
结果与分析实证结果显示，基于随机森林的风控模型在LendingClub平台的信用评分和违约预测方面表现良好。与传统的线性模型相比，随机森林模型具有更高的预测准确性和鲁棒性，能够更好地捕捉数据中的非线性关系和复杂模式。
结论与展望本文基于随机森林算法构建了LendingClub的风控模型，并证明了其在信用风险管理方面的有效性和可行性。未来的研究可以进一步探讨其他机器学习算法在互联网借贷平台风险管理中的应用，并结合大数据和人工智能等技术，进一步提升模型的预测能力和实时监控能力，为平台的健康发展提供更加可靠的保障。

Toby老师对论文点评

这篇论文本身质量比较高，Toby老师认为研究生能写出这样论文也是花了不少时间做研究，值得鼓励和肯定。

《基于随机森林模型的人信用风险评估研究》论文采用的是lendingclub数据集，该数据集最明显特征是数据非平衡。故作者花了很多时间在SMOTE过采样技术上，提升模型性能。

接下来我谈谈论文可以优化内容。

1.非平衡数据集中准确率的误导性

论文对模型验证只用了准确率，过于单一。模型验证指标很多，不同指标反应模型不同方面。

如果数据集是非平衡的，准确率accuracy指标意义不大，且容易误导决策者。大家不要太信任模型，模型也是会玩小聪明的。如果数据集里999个样本都是好客户，1个样本是坏客户。模型偷偷懒，自动判断所有预测结果为好客户，准确率也可以达到999/1000，即0.999。决策者一看模型准确率0.999这么高，兴高采烈，实际上模型什么都没干，就是把所有预测对象统一判断为好客户而已。

2.模型验证指标多样化

模型验证指标很多，不同指标反应模型不同方面。论文如果加上AUC，KS，Gini系数，混淆矩阵指标，模型验证结果会更好。

3.多算法比较不足

该论文只比较了逻辑回归和随机森林两种算法，得到了随机森林性能较好结论。我们可以对比更多算法。

Toby老师通过其它集成树算法得到模型测试集结果如下，性能高于论文中随机森林性能。

'''
python金融风控评分卡模型和数据分析（加强版）,商务咨询QQ：231469242
https://study.163.com/series/1202915601.htm?share=2&shareId=400000000398149
'''
accuracy on the training subset:0.992
accuracy on the test subset:0.990
test data:
model accuracy is: 0.9899023985048282
model precision is: 0.9325153374233128
model sensitivity is: 0.28679245283018867
f1_score: 0.4386724386724387
AUC: 0.8726141962832263
good classifier
gini 0.7452283925664527
ks value:0.5835

4.可视化内容不足

论文中有变量统计和模型可视化图片，如下图。