决策树系列目录(文末有惊喜彩蛋!
):
决策树①——信息熵&信息增益&基尼系数
决策树②——决策树算法原理(ID3,C4.5,CART)
决策树③——决策树参数介绍(分类和回归)
决策树④——决策树Sklearn调参(GridSearchCV调参及过程做图)
决策树⑤——Python代码实现决策树
决策树应用实例①——泰坦尼克号分类
决策树应用实例②——用户流失预测模型
决策树应用实例④——淘宝&京东白条金额(回归&均方差&随机森林)
银行借贷是基于分析历史按时还款、逾期或不还的用户群体的各自特征建立模型,未来借款用户只要符合符合借款要求,就给予借贷,如果不符合,则拒绝。
本文将根据自建的一份包含借款人信息及银行是否借贷的数据集,创建一棵决策树,并进行预测。
一、数据集
文末有下载方式,方便您实操一遍
二、字段介绍
① name_id: 姓名
② profession: 职业,1-企业工作者,2-个体经营户,3-自由工作者,4-事业单位,5-体力劳动者
③ education: 教育程度,1-博士及以上,2-硕士,3-本科,4-专科,5-高中及以下
④ house_loan: 是否有房贷,1-有,0-没有
⑤ car_loan:是否有车贷,1-有,0-没有
⑥ married: 是否结婚,1-是,0-否
⑦ child:是否有小孩,1-有,0-没有
⑧ revenue:月收入
⑨ approve:是否予以贷款,1-贷款,2-不贷款
三、导入数据
# 导入库
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics
from IPython.display import Image
import pydotplus
from sklearn import tree
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import GridSearchCV
# 导入数据
data = pd.read_csv('loan_data.txt',sep='\s+',encoding='utf-8',index_col='nameid')
print(data)
x = data.drop(['approve'],axis=1).