例子及数据集是某套教程(避嫌)里的内容,做下记录,个人认为,亲自实现代码可以增强学习效果。
情境:
某家银行发现进来他们的客户流失比较严重,处于业务需要,现在他们将收集的客户资料,希望通过分析得到未来一段时间内客户断掉跟这家银行的业务来往的可能性,从而做出适当的挽留措施。
现在他们收集了客户的ID、姓名、信用得分、地区位置、性别、年龄、业务往来时长、存款、购买的业务数、是否拥有信用卡、是否为活跃客户、估计年薪的各种情况。目的是将他们依据是否会断绝业务往来进行分类。
import pandas as pd
dataset = pd.read_csv('Churn_Modelling.csv')
x = dataset.iloc[:,3:-1].values
y = dataset.iloc[:,-1].values
'''
提取特征,及标签数据,也就是x、y。
这里去除了与客户流失无关的特征:ID、姓名(对于地理位置,我们做了保留,原因是不同地区政策,汇率什么的可能有所影响。)
'''
这里我们观察数据集可以发现,存在分类变量,需要进行转化,转化成可以进入模型的数据。
from sklearn.preprocessing import LabelEncoder,OneHotEncoder
le1 = LabelEncoder()
ohe = OneHotEncoder(categorical_features=[1])
x[