决策树总结（西瓜书第4章）

最新推荐文章于 2022-11-24 14:07:18 发布

Venki_Li

最新推荐文章于 2022-11-24 14:07:18 发布

阅读量195

点赞数

文章标签：决策树机器学习

本文链接：https://blog.csdn.net/Venki_Li/article/details/120256350

版权

1、信息熵——度量样本集合纯度

关于定义（根据B站UP致敬大神总结）以二分类任务为例（抛硬币）

1个硬币——2种情况（正、反）

2个硬币——4种情况（正反、正正、反正、反反）

3个硬币——8种情况

.....

n种情况—— $\log_{2}n$ 种情况

推导公式4.1（将一般分布看作等概率分布，A、B、C事件概率不同）

2、信息增益——对信息进行量化

对于一个选择题，选项A、B、C、D，在不知道任何信息的情况下，每个选项正确的概率是1/4，此时计算信息熵为2。然后，在得知C选项正确的概率为1/2后，其余选项正确概率为1/6，此时计算信息熵为1.79。因此，“C选项正确的概率为1/2”这个信息就被量化了，2-1.79=0.21。

3、增益率

信息增益对可取值数目多的属性有所偏好，因此C4.5决策树算法使用增益率来选择最优划分属性。

4、基尼指数

基尼值越小，数据集的纯度越高。基尼指数是基尼值的加权平均，选择使划分后基尼指数最小的属性作为最优划分属性。

5、剪枝处理

（1）预剪枝——对划分前后的泛化性能进行估计（利用验证集）

结点是否能被划分，取决于假设划分后的精度是否有提高。

（2）后剪枝——从叶结点开始回溯

将结点领衔的子树替换为叶结点，计算验证集精度

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Venki_Li

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

机器学习_西瓜书_C4决策树

d1596324的博客

07-21

464

西瓜书+南瓜书: 第四章_决策树.

西瓜书课后题——第四章（决策树）

qq_37691909的博客

12-24

1万+

课后题4.3：编程实现基于信息熵进行划分选择的决策树算法，并为表4.3中的西瓜数据集生成一棵决策树 这道题主要参考了这篇博客，课后题4.3编程实现。我对其中给出的代码进行了一些注释，下面贴出代码全文： import numpy as np import pandas as pd import math import copy import matplotlib.pyplot as ...

参与评论您还未登录，请先登录后发表或查看评论

西瓜书学习笔记第4章 决策树

qq_53732530的博客

10-19

814

对决策树的总体认识：从逻辑角度：一堆if else 语句的组合；从几何角度：根据某种准则划分特征空间；最终目的：将样本越分越“纯”。

西瓜书-第四章-决策树

qq_24435565的博客

01-21

1459

决策树，一般的，一颗决策树包含一个根节点、若干个内部节点和若干个叶节点；叶节点：对应决策结果，即样本的label 根 + 内部节点：对应一个分割数据集方法，根据该方法将节点对应的数据集划分到子节点中。根到叶节点的路径：对应一个判定序列

机器学习西瓜书——基尼指数

zz_smallred的博客

02-13

7128

CART决策树使用“基尼指数”（Gini index）来选择划分属性。书上并没有写出具体的例子供参考，这里给出一个例子。首先先列出求取基尼指数所需要用的公式。数据集D的纯度可用基尼值来度量。Gini(D)越小，则数据集D的纯度越高。（Pk指的是正例在总体中的比例）属性a的基尼指数定义为：求取得出属性a的基尼指数后，再求取其他属性的基尼指数，最后比较获得基尼指数最小的属性为最优划分属性，...

机器学习（西瓜书）注解：第4章 决策树

彬彬有礼的专栏

10-26

1494

机器学习（西瓜书）注解：第4章 决策树 本次更新第4章，决策树。针对该章注解有任何问题欢迎在此留言~ 本章作为西瓜书“介绍经典而常用的机器学习方法”的开篇，通篇以“西瓜”为例进行讲解，通俗易懂。个人感觉最可能会让人产生困惑的知识点是决策树三种递归返回情形（参见4.1节的详细解释）、缺失值处理的具体细节（参见式(4.12)的解释，具体还得自己琢磨一下4.4.2节的...

决策树挑出好西瓜

weixin_56102526的博客

10-28

2529

决策树挑出好西瓜一、决策树二、ID3算法理论（一）算法核心（二）特征选择（三）熵（entropy）（四）信息增益（information gain）（五）步骤三、ID3算法应用举例——西瓜树（一）西瓜树理论推导（二）算法代码参考资料一、决策树 1、决策树（Decision Tree)是一类常见的机器学习方法，是一种非常常用的分类方法，它是一种监督学习。常见的决策树算法有ID3，C4.5、C5.0和CART（classification and regression tree），CART的分类效果一般要

西瓜书《机器学习》---第四章 决策树python代码实现

06-21

【对应博客内本章内容】 ...4.6 选择4个UCI数据集，对上述2种算法产生的未剪枝，预剪枝，后剪枝的决策树进行实验比较，并进行适当的统计显著性检验。原文链接：https://blog.csdn.net/m0_46345193/article/details/

机器学习-西瓜书学习笔记-第四章决策树及代码

最新发布

08-13

本章主要是关于决策树算法的详细介绍，包括以下几个核心内容： 1. 划分选择：决策树学习中，选择最优划分属性是关键。这涉及到如何度量样本集合的纯度，以及如何根据属性划分样本集合。 - 信息熵：信息熵是度量...

机器学习西瓜书（周志华）第四章 决策树

小蜗牛的博客

05-22

1万+

第四章 决策树1. 概述2. 特征选择2.1 信息增益2.2 信息增益率2.3 基尼指数3. 决策树生成4. 决策树剪枝4.1 预剪枝2. 对数几率回归（logistic regression）2.1 对数几率函数（logistic function）2.2 用极大似然求解2.3 LR的多分类问题3. 线性判别分析4. 多分类学习4.1 利用二分类学习器解决多分类问题4.2 最经典的拆分策略（Ov...

决策树学习（一）

cbl709的专栏

05-12

1073

本文来自我个人博客：www.chenbiaolong.com概述决策树学习是一种逼近离散值目标函数的方法，简单来说它可以被表示为多个的if-then的规则表达式。在本文中先主要介绍决策树的基本概念，主要包括熵的概念以及如何选择最优的数据集划分方式数据准备这里我们使用《机器学习》（Tom M.Mitchell著）中的例子作为分析的数据源。这颗决策树根据天气情况分类“星期六上午是否适合打网球”。

西瓜书 习题4.4 编程实现基尼指数决策树

世靖的码场

01-18

4306

数据及代码地址：https://github.com/qdbszsj/decisionTreeGini这里的代码在信息熵决策树的基础上稍加修改就可以，之前是根据熵增的最大值来确定用哪个属性划分，现在是根据基尼指数（表现数据集D的纯度）的最小值来建树。这里网上的很多人说建出来的树长得和书上的不一样！一样TM就怪了，书上P81页的树那是根据entropy建的，我们建出来的树是根据Gini index的

【西瓜书】4-决策树

m0_49376775的博客

11-24

2247

C4.5决策树解决ID3决策树的一个缺点，剪枝处理是避免模型过拟合的常用手段，常见的有预剪枝和后剪枝。

[决策树]西瓜书中增益、增益比率以及基尼系数的计算

蛋总的快乐生活

11-23

3550

决策树：分裂（Splitting）、停止（Stopping）与剪枝（Pruning）一、Splitting 问题：怎样找到最好的分裂属性？希望内在的节点有更高的纯度。怎样去衡量纯度呢？信息熵（Information entropy）是来评判采样D的纯度 Ent(D)Ent(D)Ent(D)的值越小表示纯度越高当概率pkp_{k}pk为111的时候，Ent(D)Ent(D)Ent(D)的值为000，也就是说全都是这种情况，纯度很高。当概率pkp_{k}pk为12

《机器学习（周志华）》西瓜数据集3.0

热门推荐

勿忘初衷

03-24

3万+

书上的一个常用数据集编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜 1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是 2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是 3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是 4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是 5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,0.

【机器学习-西瓜书】第4章-决策树

wayaya112的博客

03-25

1764

4.1 导入一棵决策树包含一个根节点、若干个内部节点（对应于属性测试）和叶节点（对应于决策结果）；从根节点到每个叶节点的路径对应了一个判定测试序列。决策树学习的目的是产生一颗泛化能力强的决策树，基本流程遵循简单且直观的“分而治之 (divide-and-conquer)” 策略。输入：训练集属性集过程：定义函数TreeGenerate (D, A)：生成节点node； if D中样本全部属于同一个类别C th...

西瓜书 课后习题4.4 基尼指数未剪枝预剪枝后剪枝

weixin_41056428的博客

11-16

2360

import operator import csv import numpy as np def readDataset(filename): ''' 读取数据 :param filename: 数据文件名，CSV格式 :return: 以列表形式返回数据列表和特征列表 ''' with open(filename) as f: ...

西瓜书作业4.4(基于基尼指数划分决策树，未剪枝/预剪枝/后剪枝)

Dou

08-25

1万+

文章目录题目全部代码画图代码未减枝思想画图预剪枝思想画图后剪枝思想画图比较总结参考题目试编程实现基于基尼指数进行划分选择的决策树算法，为表4.2中数据生成预剪枝、后剪枝决策树，并与未剪枝决策树进行比较。 (牢骚：剪枝这块真是头大，剪枝的原理很清晰，代码实现的时候遇到了问题，看了一些代码，不知道是可读性的问题还是自己反应慢，最后还是靠着自己的理解实现了，自知水平不行，现记录一下。）全部代码画...

多智能体强化学习：深度强化学习的多样性驱动探索策略

燕双嘤

01-07

7809

题目：Diversity-Driven Exploration Strategy for Deep Reinforcement Learning 出处：NeurIPS 2018，人工智能的顶级会议。摘要：在强化学习中，有效探索仍然是一个具有挑战性的研究问题，特别是当环境包含大的状态空间、欺骗性或稀疏的奖励时。为了解决这个问题，我们提出了一种多样性驱动的探索方法，该方法可以很容易地与非策略和非策略强化学习算法相结合。我们表明，通过简单地将距离度量正则化添加到损失函数，所提出的方法显著增强了智能体的探索行

西瓜书第四章课后习题4.9

11-07

西瓜书第四章课后习题4.9要求使用C4.5算法构建决策树，并对决策树进行剪枝。具体来说，需要将数据集分为训练集和测试集，使用训练集构建决策树，然后使用测试集对决策树进行剪枝，并比较剪枝前后的性能差异。可以...