《机器学习实战》——决策树之关于熵的理解及python实现

最新推荐文章于 2023-03-26 19:52:17 发布

swt0711

最新推荐文章于 2023-03-26 19:52:17 发布

阅读量635

点赞数

分类专栏： python机器学习文章标签： python 机器学习决策树

本文链接：https://blog.csdn.net/swt0711/article/details/81085563

版权

《机器学习实战》第三章决策树提到信息增益和熵的含义，并含python代码实现，本文对代码进行了注释。

一、熵的理解：

信息论创始人克劳德·艾尔伍德·香农，引入了信息熵，表示随机变量不确定度的度量。

公式如下：

$H(X)=-\sum\limits_{x\in\mathcal{X}}p(x)\log p(x)$

满足如下三条性质：

单调性：发生概率越高的事件，所携带的信息熵越低。例：“太阳每天从东方升起”为确定事件，不携带信息，从信息论角度，没有消除任何不确定性，信息量为0。
非负性：信息熵不能为负。若为负，则获得某信息后不确定性反而增加，不合逻辑。
累加性：多随机事件同时发生存在的总不确定性的量度==各事件不确定性的量度之和。

香农已从数学上证明了满足上述三个条件的随机变量不确定性度量函数具有唯一形式，即上述的 H(X)公式。

即：一个事件的信息量就是这个事件发生的概率的负对数。

熵就是信息量的期望（平均而言发生一个事件得到的信息量大小）

二、计算给定数据的熵---python实现

from math import log
impo

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

swt0711

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

从本质看决策树，谈谈信息熵是怎么发现的,ID3决策树Python实践实现XOR异或

@司南牧|知乎|博客|易懂教程|李韬

05-27

936

本文首发于CSDN @Ai酱的博客，转载请注明出处。任何机器学习的套路 机器学习算法看起来那么多，其实套路就一个。那么多算法是背不下来的，自己知道他们怎么根据套路想出来的就可以。套路就三步：选取一种数学模型来对数据进行分类预测*。线性回归是用直线这个数学模型来划分数据。逻辑回归是用sigmoid这个函数来输出一个概率值。决策树是想用一个二叉树来对数据分类（二叉树也是一个数学模型）确...

python机器学习（六）决策树(上) 构造树、信息熵的分类和度量、信息增益、CART算法、剪枝

hwwaizs的博客

08-05

1887

决策树的构造树、信息熵的分类和度量、信息增益、CART算法、剪枝

参与评论您还未登录，请先登录后发表或查看评论

2.1、决策树之信息增益与熵

军军的专栏

02-08

1万+

一、信息增益与熵在信息论中，熵被用来衡量一个随机变量出现的期望值。变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大，熵是整个系统的平均消息量。信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个度量。信息熵计算公式是：H(x)=E[I(xi)]=E[ log(

决策树 熵

weixin_33911824的博客

10-01

215

2019独角兽企业重金招聘Python工程师标准>>> ...

Python机器学习：决策树002信息熵

持之以恒

12-28

152

#信息熵 #假如系统中只有两类·· import numpy as np import matplotlib.pyplot as plt def entropy(p): return -p * np.log(p) - (1 - p) * np.log(1 - p) x = np.linspace(0.01,0.99,200) plt.plot(x,entropy(x))

机器学习实战——决策树.zip

最新发布

04-25

在“机器学习实战——决策树”中，你将学习到如何使用Python的scikit-learn库实现决策树模型，包括数据预处理、模型训练、参数调优以及模型评估。此外，你还会了解到如何可视化决策树，以便更好地理解模型决策的逻辑...

决策树算法：原理与python实现案例

zzh1464501547的博客

09-15

1339

决策树是一种逼近离散值目标函数的方法，学习到的函数使用树结构进行表示，完成决策任务。这里决策树可以是分类树，也可以是回归树。一个决策树一般由根节点、若干内部节点、若干叶子节点构成。叶子节点就是决策结果；每个内部节点对应一个属性测试，每个内部节点包含的样本集合，根据属性测试结构进一步划分，进入该内部节点的子节点；根节点包含全部的训练样本，从根节点到每个叶子节点，对应了一条决策规则。先以一个简单的动物分类任务为例，如何区分鸡和鸭两类动物。我们决策过程应该是思考，鸡和鸭两种动物较为明显的区分特征。

python机器学习课程——决策树全网最详解超详细笔记附代码

一名在读大学生，正在学习深度学习，会定期分享一些该领域内容。欢迎大家一起交流学习~

03-26

4296

决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树方法最早产生于上世纪60年代，到70年代末。由J Ross Quinlan提出了ID3算法，此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进，对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进，既适合于分类问题，又适合于回归问题。决策树算法构造决策

【机器学习数据集的信息熵】信息熵及其Python计算实现

NopDes1re的专栏

03-13

1万+

1.信息熵的理论背景在机器学习的过程中，我们经常会进行数据集的准备工作。那么怎么来评测我们划分的数据集，来证明我们的划分就是最好最合理的呢？这里我们就需要用到信息熵了。熵越大，随机变量的不确定性就越大。熵，定义为信息的期望值，是大名鼎鼎的香农提出来的概念。信息的定义：如果待分类的 Xi ，可能处于多个类别中，那么Xi 的信息定义为： L...

基于信息增益的决策树（python）

11-16

自己用Python3.6.1 写的基于信息增益的决策树，信息熵函数、信息增益函数、多数表决函数、产生决策树的函数写的都比较清楚，直接下载放在python环境中就能出结果，数据用的是周志华老师的《机器学习》的表4.3。

Python 决策树算法原理及实现

MySundays的博客

04-15

1092

决策树算法 决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。 决策树算法构造决策树来发现数据中蕴涵的分类规则.如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步，决策树的生成:由训练样本集生成决策树的过程。一般...

【ML】决策树(1)

0x00

08-14

207

决策树基础，CART方法《统计学习方法》李航

SVM算法实现手写数字识别(Sklearn实现)

Asia-Lee

08-04

2万+

1、Sklearn.svm学习数据集下载：trainingDigits训练集下载，testDigits测试集下载详细数据介绍参看：KNN算法实现手写数字识别 2、代码实现 # -*- coding: UTF-8 -*- import numpy as np from os import listdir from sklearn.svm import SV...

【机器学习】决策树实验报告

小汤圆的博客

08-14

1万+

前面我们已经知道了年龄和兴趣指数的取值范围，这里我们通过随机生成age和interest的方法进行了三组实验，每组实验测试10个数据，得到了如图6的结果。为了观察建立的决策树模型随测试集大小变化其分类准确率的变化情况，先初始选取了0.001大小的测试集，以0.05的步长依次增大测试集的大小，每次循环训练一个决策树模型；接着选取80%的数据作为训练集训练决策树模型，并将训练好的决策树模型可视化后得到如图3的决策树：树的高度为9，此时分类准确率为。首先读取数据，查看数据的基本信息，发现没有空缺值。......

机器学习-决策树（python）

qq_56424896的博客

11-14

2947

决策树(Decision Tree）是在已知各种情况发生概率的上，通过构成决策树来求取净现值的值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法,和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

python机器学习：决策树详解

oax_knud的博客

07-17

3万+

文章目录一、决策树工作原理1.1 定义1.2 决策树结构1.3 核心问题二、sklearn库中的决策树2.1 模块sklearn.tree2.2 sklearn建模基本流程三、分类树3.1构造函数一、决策树工作原理 1.1 定义决策时(Decislon Tree)是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据中总结出决策规则。并用树状图的结构来呈现这些规则，**以解决分类和回归问题。**决策树算法的本质是一种图结构，我们只需要问一系列问题就可以对数据进行分类。举例：动物类别分类已知

Python编程实现基于信息熵进行划分选择的决策树算法

仰起脸笑得像满月

09-05

1万+

本篇是周志华老师的《机器学习》第4章 决策树 课后题4.3的实现，原题是：试编程实现基于信息熵进行划分选择的决策树算法，并为表4.3中数据生成一颗决策树。这里需要注意的是此数据集中，有的属性是离散的，有的属性是连续的，对于连续的属性，我们可以使用二分法将样本分为两个部分。这个数据集可以从Dataset.py中粘贴： def watermelon3(): """ ...

决策树原理实例（python代码实现）