数据挖掘实战之信用卡违约率分析

最新推荐文章于 2024-08-13 12:29:14 发布

柚子哦

最新推荐文章于 2024-08-13 12:29:14 发布

阅读量4.9k

点赞数 5

分类专栏：数据分析实战

本文链接：https://blog.csdn.net/hahaha66888/article/details/88554876

版权

这篇博客基于2005年台湾某银行的信用卡数据，探讨如何构建分类器预测信用卡违约率。作者首先进行数据加载和探索，发现数据完整无缺失值。接着尝试了SVM、决策树、随机森林、KNN、Adaboost等多种分类器，并使用GridSearchCV找到最优参数和分数。结果显示，SVM分类器表现最佳，准确率达到0.8172，最优分数为0.8174。

摘要由CSDN通过智能技术生成

本文通过针对台湾某银行 2005 年 4 月到 9 月的信用卡数据这一数据集构建一个分析信用卡违约率的分类器。

数据来源https://github.com/cystanford/credit_default

1、数据加载和探索：

数据完整，没有缺失值

#查看下一个月的违约情况
default = data['default.payment.next.month'].value_counts()
default

df = pd.DataFrame({'default.payment.next.month':default.index,'values':default.values})  #barplot的data参数需要是Dataframe或者array
import matplotlib.pyplot as