本次学习利用MT_Train.csv中所给的数据对MT_Test.csv中的数据进行预测,判断客户是否会定期存款。根据所学知识,可采用sklearn中的决策树等方法进行程序设计。欢迎大家一起讨论学习进步。
训练集和测试集链接如下:
一. 设计思路
1.读取训练集和测试集文件
2.对数据进行处理
3.训练决策树
4.输出预测结果
5.将预测结果按要求保存
代码
import numpy as np
import pydotplus
from sklearn import preprocessing
from sklearn.preprocessing import LabelEncoder
from sklearn import ensemble
from sklearn.externals.six import StringIO
from sklearn.metrics import precision_recall_curve
from IPython.display import Image
##read train_scv and test_scv
tmp = np.loadtxt("MT_Train.csv", dtype=np.str, delimiter=",")
tmp_test = np.loadtxt("MT_Test.csv", dtype=np.str, delimiter=",")
y_csv = np.loadtxt("MTSampleSubmission.csv", dtype=np.str, delimiter=",")
data = tmp[1:,:-1]
label = tmp[1:,-1:]
data_test = tmp_test[1:,1:]
#label_test = tmp_test[1:,-1:]
#print(data)
## binarize lable and label_test
lb = preprocessing.LabelBinarizer()
label=lb.fit_transform(label)