目录
前言
本文的主要内容是对银行客户进行分类 预测其是否会购买银行的定期存款产品。
以下内容主要展现简单的数据分析、画图、分类变量编码、数据缩放和逻辑回归完整过程。
变量含义:
· ID:客户唯一标识
· age:客户年龄
· job:客户的职业
· marital:婚姻状况
· education:受教育水平
· default:是否有违约记录
· balance:每年账户的平均余额
· housing:是否有住房贷款
· loan:是否有个人贷款
· contact:客户联系的沟通方式
· day:最后一次联系的时间(几号)
· month:最后一次联系的时间(月份)
· duration:最后一次联系的交流时长
· campaign:在本次活动中,与该客户交流过的次数
· pdays:距离上次活动最后一次联系该客户,过去了多久
· previous:在本次活动之前,与该客户交流过的次数
· poutcome:上一次活动的结果
· y:预测客户是否会订购定期存款业务
一、初始化
导入相关包和库
#数据处理包
import numpy as np
import pandas as pd
#画图
import matplotlib.pyplot as plt
from matplotlib import rcParams
import seaborn as sns
#建模
from sklearn.preprocessing import scale,LabelEncoder #用于数据预处理模块的缩放器、标签编码
from sklearn.model_selection import train_test_split #数据集分类器 用于划分训练集和测试集
from sklearn.metrics import classification_report,accuracy_score #评估预测结果
from sklearn.linear_model import LogisticRegression #需要使用的逻辑回归模型
设置显示
#设置输出全部结果 而非只有最后一个
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
#设置正常显示负号和中文
%matplotlib inline
plt.rcParams['font.family'] = 'SimHei' #用来正常显示中文
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
导入数据
data = pd.read_csv("/逻辑回归做分类预测-客户