【机器学习系列】聊聊决策树

本文深入探讨了决策树模型,包括其基本使用、可视化方法、纯度概念(基尼系数、熵和均方误差)、CART训练算法、决策边界可视化以及决策树存在的过拟合和不稳定性问题。通过实例展示了决策树在分类和回归任务中的应用,并提供了代码示例,强调了正则化对防止过拟合的重要性。
摘要由CSDN通过智能技术生成

61ee1a17341a68cdfcf70df178224bda.png

决策树是简单易学且具有良好解释性的模型,但实话说,我在工作中用的不多,通常会选择更加复杂一些的模型,如随机森林、XGBoots之类的模型,但要理解这些模型,对决策树的学习是必不可少的,所以本文就基于sklearn(Scikit Learn)来讨论一下决策树相关的内容。

决策树基本使用与可视化

为了方便,我们直接使用sklearn提供的鸢尾花数据集来展示决策树的使用。

首先,导入鸢尾花数据集:

from sklearn.datasets import load_iris
iris = load_iris()

如果第一次使用,sklearn会自动帮我们下载,你需要等待一下则可。

获得鸢尾花数据集后,我们使用数据集中花瓣的长度和宽度作为特征,将花瓣的种类作为target,然后使用sklearn的DecisionTreeClassifier构建分类决策树,该决策树会基于特征,对花瓣的种类进行分类,代码如下:

from sklearn.tree import DecisionTreeClassifier

X = iris.data[:, 2:]  # 花瓣的长与宽
y = iris.target  # 花的种类

# 分类决策树,max_depth=2表示决策树最大高度为2
tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X, y)

构建完后,可以通过sklearn提供的plot_tree方法可视化决策树:

from sklearn import tree
tree.plot_tree(tree_clf)

272ff6ef42860a335c48281f900d7a42.png

   图1

如果觉得sklearn的plot_tree方法绘制出的决策树不太美观,可以甩graphviz进行绘制,graphviz是一个绘图软件,需要先自行安装,在MacOS下,安装简单:

brew install graphviz
pip install graphviz

安装完后,变可以进行决策树的绘制了:

from graphviz import Source
from sklearn.tree import export_graphviz

export_graphviz(
        tree_clf,
        out_file=os.path.join(IMAGES_PATH, "iris_tree.dot"),
        feature_names=iris.feature_names[2:],  # 特征
        class_names=iris.target_names,  # 分类
        rounded=True,  # 圆角
        filled=True,  # 颜色填充
    )

Source.from_file(os.path.join(IMAGES_PATH, "iris_tree.dot"))

效果如图:

9508298706cf96f20c4b86ea15b66a23.png

图2

怎么使用这棵决策树?

假设你手里有一朵刚摘的鸢尾花,要对其进行分类,你会从决策树的根节点开始(深度为0),判断该花的花瓣宽度是否小于0.8cm,如果小于,那么就来到根的左子节点(图中橙色节点,深度为1),该节点是叶子节点(没有其他子节点),叶子节点的class值便是当前这棵决策树对当前这朵花的预测,它认为这朵花的种类是setosa。

假设你还有另外一朵花,发现它的花瓣宽度大于0.8cm,那么你还需要继续判断花瓣宽度是否小于等于1.75cm,如果小于,那么就来的图中绿色的叶子节点,此时,决策树预测这朵花的种类是versicolor。

纯度

先不纠结决策树的细节,来思考一个关键问题:决策树是基于什么来做决策的?,比如图2中的根节点,分裂成了2个子节点,左边的子节点,不再分裂,而右边的子节点继续分裂,这里的分裂的依据是什么?

这就涉及到纯度的概念,对于分类决策树而言,通常会使用基尼系数或熵来判断某个节点的纯度,而对于回归决策树而言,通常会使用均方误差(MSE)来判断某节点纯度。

029bb8e48aae0eecec098b712ba671e4.png

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

懒编程-二两

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值