使用决策树模型,来构建客户违约预测模型

实验:使用决策树模型,来构建客户违约预测模型

决策树(Decision Tree)分类技术是一种比较直观的用来分析不确定性事件的概率模型,属于数据挖掘技术中比较常见的一种方法。主要是用在分析和评价项目预期的风险和可行性的问题。决策树作为预测模型,从直观可以看作类似于一棵树,从树根到各个分支都可以看作一个如何分类的问题。枝干上的每一片树叶代表了具有分类功能的样本数据的分割。本次的实验将构建决策树模型来对客户是否违约进行预测分析。
此次实验的步骤如下:
1、导入实验相关的库:

#基础数据准备
import pandas as pd
import numpy as np

##可视化
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['SimHei']
mpl.rcParams['axes.unicode_minus'] =False


## 根据卡方检验选取关联特征
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.metrics import *

# 导入决策树分类模型
from sklearn.tree import DecisionTreeClassifier

2、数据导入

data = pd.read_excel(r'客户信息及违约表现.xlsx')

展示数据的前五条数据

data.head(5)

output:
在这里插入图片描述
3、数据导入之后查看数据的情况(看是否是有缺失值,异常值)

data.describe()

在这里插入图片描述

data.isnull().sum()## 数据集没有缺失值

在这里插入图片描述
可以发现数据是没有缺失值的
4、特征工程:对收入数据和历史授信额度进行处理以及编码
首先对收入那一列的数据进行整理编码

data["收入"].describe()

在这里插入图片描述

从上面的数据查看中我们可以发现收入最小是1.0*exp(5) ,最大是6.602542exp(6),我的想法是可以将其分成10个收入范围,每个范围分别用0,1,2,3,。。。。9来表示(也可以分为更多的类)

income_max = max(data["收入"])
income_min = min(data["收入"])
a = round((income_max-income_min)*0.1,2)

#定义一个给收入编码的函数getcode(x)
def getcode(x):
    if x>=income_min and x<income_min+a*1:
        return 0
    if x>=income_min+a*1 and x<income_min+a*2:
        return 1
    if x>=income_min+a*2 and x<income_min+a*3:
        return 2
    if x>=income_min+a*3 and x<income_min+a*4:
        return 3
    if x>=income_min+a*4 and x<income_min+a*5:
        return 4
    if x>=income_min+a*5 and x<income_min+a*6:
        return 5
    if x>=income_min+a*6 and x<income_min+a*7:
        return 6
    if x>=income_min+a*7 and x<income_min+a*8:
        return 7
    if x>=income_min+a*8 and x<income_min+a*9:
        return 8
    if x>=income_min+a*9 and x<=income_max:
        return 9

    

##对收入进行编码
data["income"]=data["收入"].apply(lambda x:getcode(x))
#查看收入的不同编码的个数并做数据可视化(直方图展示)
data["income"].value_counts()

data["income"].hist(bins=20)

在这里插入图片描述
在这里插入图片描述

plt.axis("equal")#保证绘制的图形是一个圆,而不是一个椭圆
plt.title("income收入的数据分布",fontsize=18,color="#000033")
plt.pie(data["income"].value_counts(),autopct="%.2f%%",)
plt.legend(data["income"].unique())
``
`![在这里插入图片描述](https://img-blog.csdnimg.cn/1ed4be80fbe2426e8a78268e1c83b7da.png)
对客户的收入信息预处理之后,对历史授信额度的数据进行编码

```python
data["历史授信额度"].describe()

在这里插入图片描述

从上面可以发现最小是0 ,说明用户没有授权历史额度,将这种情况单独归为一类,可以将剩下的分成10个收入范围,每个范围分别用1,2,3,。。。。10来表示

credit_max = max(data["历史授信额度"])
credit_min = min(data["历史授信额度"])
credit_one = round((credit_max-credit_min)*0.1,2)##保留两位小数
print(credit_one)

#定义一个给历史授信额度编码的函数getCreditCode(x)
def getCreditCode(x):
    if x==0:
        return 0
    if x>credit_min and x<=credit_min+credit_one*1:
        return 1
    if x>credit_min+credit_one*1 and x<=credit_min+credit_one*2:
        return 2
    if x>credit_min+credit_one*2 and x<=credit_min+credit_one*3:
        return 3
    if x>credit_min+credit_one*3 and x<=credit_min+credit_one*4:
        return 4
    if x>credit_min+credit_one*4 and x<=credit_min+credit_one*5:
        return 5
    if x>credit_min+credit_one*5 and x<=credit_min+credit_one*6:
        return 6
    if x>credit_min+credit_one*6 and x<=credit_min+credit_one*7:
        return 7
    if x>credit_min+credit_one*7 and x<=credit_min+credit_one*8:
        return 8
    if x>credit_min+credit_one*8 and x<=credit_min+credit_one*9:
        return 9
    if x>credit_min+credit_one*9 and x<=credit_max:
        return 10

    

##对收入进行编码
data["credit"]=data["历史授信额度"].apply(lambda x:getCreditCode(x))
## 查看额度编码后的数据量(果然实际上的类别小于等于11,只有7个类别)
data["credit"].value_counts()
data["credit"].hist(bins=20)

在这里插入图片描述

plt.axis("equal")#保证绘制的图形是一个圆,而不是一个椭圆
plt.title("credit历史授信额度的数据分布",fontsize=18,color="#000033")
plt.pie(data["credit"].value_counts(),autopct="%.2f%%",)
plt.legend(data["credit"].unique())

在这里插入图片描述
最后,将数据中收入和历史授信额度这两列数据剔除

data.drop(columns=["收入","历史授信额度"],inplace=True)

在这里插入图片描述
数据可视化查看:

data.hist(bins=20,figsize=(10,10))

在这里插入图片描述
5、查看数据的分布是否均匀

data.groupby("是否违约").count()

在这里插入图片描述

可以发现为0的样本数量(未违约)占总样本的数量的3/5,为1的样本数量(违约)占总样本的数量的2/5, 说明两种特征的样本数量比较均衡,可以构建分类模型
6、关联分析

## 计算协方差
dataCorr = data.corr()
dataCorr

在这里插入图片描述

## 热力图展现相关关系
import seaborn as sns

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

plt.figure(figsize=(20,10))
sns.heatmap(dataCorr,annot=False,fmt="float",linewidths=0.5,cmap="RdYlBu")
plt.tick_params(labelsize=20)
font1={'family':'Times New Roman',
      'weight':'normal',
       'size':20,
      }
plt.show

在这里插入图片描述
计算“是否违约”与其他特征变量的关系

dataCorr = data.corr()["是否违约"]
dataCorr

在这里插入图片描述
7、卡方检验
选择相关性较强的特征

## 1、卡方检验
dataFeature = data.drop(columns=['是否违约'])

## 根据卡方检验选取关联特征
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
#选择k个最佳特征
s = SelectKBest(chi2,k=4).fit(dataFeature,data['是否违约'])

feat_scores=pd.DataFrame(index=[0,1,2,3,4])
feat_scores["F score"] = pd.DataFrame(s.scores_)
feat_scores["P value"] = pd.DataFrame(s.pvalues_)
feat_scores["是否相关"] = pd.DataFrame(s.get_support())

feat_scores

在这里插入图片描述

## 根据卡方检验选取关联特征
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
name = []
feature = []
for i in dataFeature.columns:
    name.append(i)
X_new = SelectKBest(chi2,k=4).fit(dataFeature,data['是否违约'])
outcome = X_new.get_support()
for i in range(0,len(name)):
    if outcome[i]:
        feature.append(name[i])
result = pd.DataFrame({"特征":name,
                       "F score":feat_scores["F score"],
                      "P value":feat_scores["P value"],
                      "是否相关":outcome})        

result

在这里插入图片描述
选取的预测特征为feature:[‘年龄’, ‘历史违约次数’, ‘income’, ‘credit’]

feature.append("是否违约")
dataFeatureSelect=data[feature]
dataFeatureSelect

8、模型的构建与评估

from sklearn.model_selection import train_test_split

#1 进行训练集和测试集的拆分
x_train,x_test = train_test_split(dataFeatureSelect,
                                  train_size=0.8,
                                  test_size=0.2,
                                  shuffle=True)
## 2、决策树模型构建
### 决策树模型既可以用作分类,又可以用作回归
# 导入相关的包
from sklearn.tree import DecisionTreeClassifier

dtc = DecisionTreeClassifier().fit(x_train.drop(
    columns=['是否违约']),
    x_train['是否违约'])
#绘制决策树图
from sklearn.tree import export_graphviz

export_graphviz(dtc,
               out_file="tree.dot",filled=True,rounded=True)

#以PDF格式输出决策树图
import graphviz
with(open("tree.dot")) as f:
    dot_graph=f.read()
dot=graphviz.Source(dot_graph)
dot.view()

## 3、利用模型进行预测

predictedTreeData = dtc.predict(x_test.drop(columns=['是否违约']))

## 4、对用户是否违约识别决策树模型进行评估
print("accuracy_score_tree:",accuracy_score(x_test['是否违约'],predictedTreeData))
print("precision_score_tree:",precision_score(x_test['是否违约'],predictedTreeData))
print("recall_score_tree:",recall_score(x_test['是否违约'],predictedTreeData))

在这里插入图片描述

## 5、对测试集评判模型预测效果
df_predict_tree = pd.DataFrame(x_test,columns=['是否违约'])
df_predict_tree['prediction_dtc'] =predictedTreeData 
df_predict_tree.head(10)

在这里插入图片描述

  • 7
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
Quartz是OpenSymphony开源组织在Job scheduling领域又一个开源项目,它可以与J2EE与J2SE应用程序相结合也可以单独使用。Quartz可以用来创建简单或为运行十个,百个,甚至是好几万个Jobs这样复杂的程序。Jobs可以做成标准的Java组件或 EJBs。 Quartz的优势: 1、Quartz是一个任务调度框架(库),它几乎可以集成到任何应用系统中。 2、Quartz是非常灵活的,它让您能够以最“自然”的方式来编写您的项目的代码,实现您所期望的行为 3、Quartz是非常轻量级的,只需要非常少的配置 —— 它实际上可以被跳出框架来使用,如果你的需求是一些相对基本的简单的需求的话。 4、Quartz具有容错机制,并且可以在重启服务的时候持久化(”记忆”)你的定时任务,你的任务也不会丢失。 5、可以通过Quartz,封装成自己的分布式任务调度,实现强大的功能,成为自己的产品。6、有很多的互联网公司也都在使用Quartz。比如美团 Spring是一个很优秀的框架,它无缝的集成了Quartz,简单方便的让企业级应用更好的使用Quartz进行任务的调度。   课程说明:在我们的日常开发中,各种大型系统的开发少不了任务调度,简单的单机任务调度已经满足不了我们的系统需求,复杂的任务会让程序猿头疼, 所以急需一套专门的框架帮助我们去管理定时任务,并且可以在多台机器去执行我们的任务,还要可以管理我们的分布式定时任务。本课程从Quartz框架讲起,由浅到深,从使用到结构分析,再到源码分析,深入解析Quartz、Spring+Quartz,并且会讲解相关原理, 让大家充分的理解这个框架和框架的设计思想。由于互联网的复杂性,为了满足我们特定的需求,需要对Spring+Quartz进行二次开发,整个二次开发过程都会进行讲解。Spring被用在了越来越多的项目中, Quartz也被公认为是比较好用的定时器设置工具,学完这个课程后,不仅仅可以熟练掌握分布式定时任务,还可以深入理解大型框架的设计思想。
[入门数据分析的第一堂课]这是一门为数据分析小白量身打造的课程,你从网络或者公众号收集到很多关于数据分析的知识,但是它们零散不成体系,所以第一堂课首要目标是为你介绍:Ø  什么是数据分析-知其然才知其所以然Ø  为什么要学数据分析-有目标才有动力Ø  数据分析的学习路线-有方向走得更快Ø  数据分析的模型-分析之道,快速形成分析思路Ø  应用案例及场景-分析之术,掌握分析方法[哪些同学适合学习这门课程]想要转行做数据分析师的,零基础亦可工作中需要数据分析技能的,例如运营、产品等对数据分析感兴趣,想要更多了解的[你的收获]n  会为你介绍数据分析的基本情况,为你展现数据分析的全貌。让你清楚知道自己该如何在数据分析地图上行走n  会为你介绍数据分析的分析方法和模型。这部分是讲数据分析的道,只有学会底层逻辑,能够在面对问题时有自己的想法,才能够下一步采取行动n  会为你介绍数据分析的数据处理和常用分析方法。这篇是讲数据分析的术,先有道,后而用术来实现你的想法,得出最终的结论。n  会为你介绍数据分析的应用。学到这里,你对数据分析已经有了初步的认识,并通过一些案例为你展现真实的应用。[专享增值服务]1:一对一答疑         关于课程问题可以通过微信直接询问老师,获得老师的一对一答疑2:转行问题解答         在转行的过程中的相关问题都可以询问老师,可获得一对一咨询机会3:打包资料分享         15本数据分析相关的电子书,一次获得终身学习
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值