python-机器学习打卡(四)--监督学习(三)--决策树、决策树集成

最新推荐文章于 2022-12-10 22:04:27 发布

今天吃了几碗饭？

最新推荐文章于 2022-12-10 22:04:27 发布

阅读量443

点赞数 1

分类专栏：机器学习打卡文章标签：机器学习决策树 python 监督学习

本文链接：https://blog.csdn.net/qq_39111089/article/details/116449604

版权

决策树

决策树就是一棵树，一颗决策树包含一个根节点、若干个内部结点和若干个叶结点；叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集，从根结点到每个叶子结点的路径对应了一个判定测试序列。

本质上他是从一层一层的if/else问题中进行学习并得出结论。

如下图所示，如果要区分四种动物鹰（hawk），企鹅（penguin），海豚（dolphin），熊（bear）。我们想通过尽可能少的判断得到正确的结果。首先可以通过是否有羽毛（feather），将动物分为两类（鹰和企鹅，海豚和熊），对于第一组我们可以在通过能否飞（fly）来区分企鹅和鹰；然后判断是否有鳍（fins）区分熊和海。
下图可用代码展示：

import mglearn
import matplotlib.pyplot as plt
cancer = load_breast_cancer()
mglearn.plots.plot_animal_tree()
plt.show()

在这里插入图片描述
此处代码需要安装graphviz：

graphviz，安装完成后将其配置到系统环境变量

  此电脑-》属性-》高级系统设置-》环境变量-》path
  添加   （安装路径）\Graphviz\bin

2.然后再到terminal中安装graphviz第三方库

pip install graphviz

如果执行第1步会报错：

graphviz.backend.ExecutableNotFound: failed to execute [‘dot’, ‘-Tpng’, ‘-O’, ‘test.gv’], make sure the Graphviz executables are on your systems’ PATH

控制决策树复杂度

通常来说，决策树会构造树知道所有节点为纯叶子节点，这会导致树非常的深，模型十分复杂，也是的模型对训练集拟合度高。纯叶子节点说明树的拟合程度为100%。
防止过拟合常见的两种策略：预剪枝和后剪枝
预剪枝：及早的停止树的构建，包括限制叶子结点个数，树的最大深度
后剪枝：先构造树，然后删除或者折叠信息量少的枝

sklearn的tree模块中分别实现了DecisionTreeRegressor和DecisionTreeClassifier。而且这两个类中只实现了预剪枝。
首先在乳腺癌数据集（cancer）上实现一次决策树分类，不进行预剪枝，直到所有节点都为叶子结点。

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

cancer = load_breast_cancer()
data = cancer.data
target = cancer.target
xtrain, xtest, ytrain, ytest = train_test_split(data, target, stratify=target, random_state=42)

fit = DecisionTreeClassifier(random_state=0).fit(xtrain, ytrain)
print("training set score is {:.4f}".format(fit.score(xtrain, ytrain)))
print("test set score is {:.4}".format(fit.score(xtest, ytest)))

输出

training set score is 1.0000
test set score is 0.9371

可以看到训练集精度达到了100%，因为叶子结点是纯的，树的深度很大，而且模型过拟合，导致泛化能力不佳。可以通过预剪枝来降低树的深度：

fit2 = DecisionTreeClassifier(random_state=0, max_depth=4).fit(xtrain, ytrain)
print("training set score is {:.4f}".format(fit2.score(xtrain, ytrain)))
print("test set score is {:.4}".format(fit2.score(xtest, ytest)))

输出

training set score is 0.9883
test set score is 0.951

通过设置树最大深度后，虽然训练集精度下降了，但是模型泛化能力得到提升。

分析决策树

将上树深度为4的决策树可视化

from sklea

最低0.47元/天解锁文章

今天吃了几碗饭？

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python-机器学习打卡(四)--监督学习(三)--决策树、决策树集成

目录决策树控制决策树复杂度分析决策树特征重要性决策树优缺点决策树集成随机森林构造随机森林分析数据优缺点梯度提升回归树（梯度提升机）优缺点决策树决策树就是一棵树，一颗决策树包含一个根节点、若干个内部结点和若干个叶结点；叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集，从根结点到每个叶子结点的路径对应了一个判定测试序列。本质上他是从一层一层的if/else问题中进行学习并得出结论。如下图所示，如果要区分四种动物鹰（haw
复制链接

扫一扫