分类问题之决策树

决策树算法

原理:根据特征作为节点来进行决策

问题:哪个特征作为根节点,下一决策又应该用哪个特征

  • 利用信息信息增益(信息论中的信息熵)的方法。衡量特征之间的重要性。
  • 理想情况:每一个叶节点都是理想分类
  • 实际情况:使用贪心算法从全局寻找最优解

版本

决策树模型类型树结构特征选择连续值处理缺失值处理剪枝处理
ID3分类多叉树信息增益不可以不可以不可以
C4.5分类多叉树信息增益比可以可以可以
CART分类与回归二叉树基尼系数可以可以可以

优点

  • 非常直观,可解释强
  • 预测速度快
  • 可以处理离散,连续,缺失值

缺点

  • 容易过拟合(预剪枝,后剪枝根据构建完成后的来条件判断)
  • 得处理样本不均衡问题。比例大更偏向

代码(鸢尾花数据集)

from sklearn.tree import DecisionTreeClassifier#引入决策树包
from sklearn import datasets
import numpy as np
np.random.seed(0)#保证随机数一样
iris=datasets.load_iris()#导入鸢尾花数据集
iris_x=iris.data
iris_y=iris.target
indices=np.random.permutation(len(iris_x))
iris_x_train=iris_x[indices[:-10]]#训练集
iris_y_train=iris_y[indices[:-10]]#训练集
iris_x_test=iris_x[indices[-10:]]#测试集
iris_y_test=iris_y[indices[-10:]]#测试集
#引入画图包
from IPython.display import Image
from sklearn import tree
import pydotplus
clf=DecisionTreeClassifier(max_depth=4)#训练深度
clf.fit(iris_x_train,iris_y_train)

#dot程序化生成流程图语言
import pydotplus
import os     
os.environ["PATH"] += os.pathsep + 'C:/Program Files/Graphviz/bin/'#自己装的Graphviz路径
dot_data=tree.export_graphviz(clf,out_file=None,feature_names=iris.feature_names,class_names=iris.target_names,filled=True,rounded=True,special_characters=True)
graph=pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png())
#测试集预测
iris_y_predict=clf.predict(iris_x_test)
score=clf.score(iris_x_test,iris_y_test,sample_weight=None)
#输出结果
print('iris_y_predict')
print(iris_y_predict)
#原始数据正确结果对比
print('iris_y_test')
print(iris_y_test)
#输出准确率
print('Auccary',score)

决策树流程图: Alt

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值