统计学习方法-决策树原理以及代码实现

决策树

在这里插入图片描述

代码实现

from sklearn.tree import DecisionTreeClassifier
# 由于存在离散值,用sklearn的preposseing进行数据的预处理
from sklearn import preprocessing
# 处理数据
data = [['青年','否','否','一般',0],\
    ['青年','否','否','好',0],
    ['青年','是','否','好',1],
    ['青年','是','是','一般',1],
    ['青年','否','否','一般',0],

    ['中年','否','否','一般',0],
    ['中年','否','否','好',0],
    ['中年','是','是','好',1],
    ['中年','否','是','非常好',1],
    ['中年','否','是','非常好',1],

    ['老年','否','是','非常好',1],
    ['老年','否','是','好',1],
    ['老年','是','否','好',1],
    ['老年','是','否','非常好',1],
    ['老年','否','否','一般',0], 
    ]
data_df = pd.DataFrame(data,columns=['年龄','有工作','有自己的房子','信贷情况','类别'],dtype=float)
pre = preprocessing.LabelEncoder()
X_train,y_train = data_df.iloc[:,:-1],data_df.iloc[:,-1]
pre.fit(np.unique(X_train)) #np.unique(X_train)对后面的数据进行唯一的解析;
# unique函数去除其中重复的元素,并按元素由大到小返回一个新的无元素重复的元组
print(np.unique(X_train))
X_train = X_train.apply(pre.transform)
print(X_train)
## 对测试数据进行预处理
X_test = pd.DataFrame([['青年','否','是','一般'],
['中年','是','否','好'],
['老年','否','是','一般'],
],columns=['年龄','有工作','有自己的房子','信贷情况'])
pre_test = preprocessing.LabelEncoder()
pre_test.fit(np.unique(X_test))  # 这里有疑问就是上面已经有一个unique了,这里还需要再设置一次吗?答案是需要的,因为处理的是不同的数据
X_test = X_test.apply(pre_test.transform) # 喂进去数据以后,将其进行编码处理
#print(X_test)
## 实例化决策树。训练决策树
clf = DecisionTreeClassifier(random_state=0,max_depth=4)
clf = clf.fit(X_train,y_train)
clf.predict(X_test)

预测结果:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值