4.3.1有监督学习（二） - 决策树（Decision Tree） - 构建树的核心指标

最新推荐文章于 2024-07-29 10:33:00 发布

进击的橘子猫

最新推荐文章于 2024-07-29 10:33:00 发布

阅读量3.2k

点赞数

分类专栏：数据分析与挖掘框架 R模型 Python模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Orange_Spotty_Cat/article/details/80689867

版权

本文详细介绍了有监督学习中的决策树算法，包括信息熵、信息增益、增益率、基尼指数和卡方值等构建决策树的核心指标。通过对“明天要不要出去玩”这一实例的分析，阐述了如何利用这些指标选择最优属性，以及它们在不同算法如C4.5、C5.0和CHAID中的应用。

摘要由CSDN通过智能技术生成

简介

决策树是与有监督学习中的常用方法。决策树的算法多见于分类问题中，即我们常说的分类树（Classification Tree）；少数情况下，决策树也可以用于连续问题，即回归树（Regression Tree）。总体而言，决策树是基于树状结构来进行决策的，它模仿了人在面临决定时自然的处理方式，并将这种决策的过程用树的姿态展现出来。

一句话解释版本：

决策树是在模仿人的决策过程，构造树的指标有三个：信息增益、增益率、基尼系数与卡方值。

数据分析与挖掘体系位置

决策树是有监督学习中的一种模型。所以在数据分析与数据挖掘中的位置如下图所示。

决策树的理解

决策树（Decision Tree）是基于树状结构来模拟并完成决策问题。举一个最简单的二分类问题为例来理解：

假如，要决定“明天要不要出去玩？”这个问题时，通常我会进行一系列“子判断”：

首先，我要看“明天是不是双休日？”，如果“是”，则
第二，我要看“自己要不要加班？”，如果“是”，则
第三，我要看“女朋友愿不愿意跟我出去？”，如果是“OK。”，则
第三，我要看“明天天气怎么样？”，如果是“多云”，则
我得出最终决策：出去玩走起。

这个决策的过程可以这样显示：

在上面的整个决策过程中，每一个提出的问题都是对属性（Features）的一次测试，测试的结果可能会是下一个问题，或者是最终的决策。每个问题都是有顺序的进行的，其考虑范围是在上个测试结果的限定范围之内。就是说，我只有在确定了“加班 = 否”之后，才会考虑“女朋友意见 = ？”

决策树其实就是在模仿上面的过程。在决策树模型中，Y就是决策结果：出去/不出去；X就是是否双休日、是否加班、女朋友意见、天气情况。最终模型会输出一个与上图类似的结果，告诉我们如何进行决策。

一般来说，一个决策树包括如下部分：

根结点（1个）：包含样本全集。
内部结点（N个）：对应属性测试。
叶结点（N个）：对应决策结果。对应上面的“出去玩”/“不去玩”。

从根结点到叶结点的路径是一个判定测试序列。一个完整的决策树，能够呈现一个决策事件中的全部情况，因此泛化能力强，处理未见示例的能力强。

决策树的算法

决策树的算法参考周志华的《机器学习》一书。

决策树算法的核心是：如何最合适的划分属性（Features）。由于决策树的过程是一步一步不断细化的，因此从根到叶的过程中所包含的样本越来越小。到了决策树的末端时，我们肯定希望结点中包含的样本尽可能的属于同一个类别。

我们把每个节点中包含样本属于一个类别的比率叫做：“纯度”（Purity）。如果一个节点中的样本都属于同一个类别，纯度就是100%。所以我们希望纯度是越高越好的。

那么，如何衡量样本集合的纯度呢？我们要用一个指标：“信息熵”（Information Entropy）。

信息增益与信息熵

信息熵（Information Entropy）

信息熵的功能：衡量样本纯度。

信息熵的公式：

最低0.47元/天解锁文章

进击的橘子猫

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

进击的橘子猫 CSDN认证博客专家 CSDN认证企业博客

码龄6年

47: 原创

6万+: 周排名

187万+: 总排名

78万+: 访问

: 等级

3500: 积分

726: 粉丝

593: 获赞

86: 评论

2883: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据科学猫：数据预处理之数据分箱(Binning)
n5: 非常好的文章。请问分箱之后怎么处理呢？比如等距分箱，得到 df['等距分箱'] 这个新的列后，怎么处理原始的列，然后可以让模型使用啊? 我看到有人会填充原始列所属的箱号，还有说分箱后一个特征变成了多个特征但我不知道怎么操作，还有说要onehot编码，楼主好人能讲讲吗，可能对大佬是不值一提的小问题，但小白往往就差这最后一下导致整个流程跑不起来，多谢！
数据科学猫：数据预处理之数据分箱(Binning)
小白dong: 最后不显示图像是为什么啊？
3.4.2数据标准化（一） - Z-Score标准化
Flynn1392: CSDN是越来越封闭了
4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)
这都啥跟啥: 或者说，文章里出现的混淆矩阵默认一个前提：以猫为例(猪狗同理)，真猫都会被检测为猫猪狗中的一种，并且检测到的假猫只来自猪或者狗。这里忽略了背景问题：一是真猫没有被识别为猫猪狗，而当作背景漏检了；二是背景区域(非猫猪狗)也可能被检测为猫。所以想问一下：当背景作为一个类，而未被标注时，应该怎样计算ACC？
4.4.2分类模型评判指标（一） - 混淆矩阵(Confusion Matrix)
这都啥跟啥: 请问ACC的定义“分类模型所有判断正确的结果占总观测值的比重”中“观测值”的定义是什么？比如图片中目标检测场景：狗数真实值为10，模型认为有5只狗、2只猫、剩余3只认为不属于已知类别（相当于认为是背景），那这3只计入观测值吗？同理，牛数真实值为10，模型认为有12头牛，其中包含10头牛和2个背景（背景被误检测为牛），那这2个背景计入观测值吗？

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。