机器学习-第2关：信息熵与信息增益

最新推荐文章于 2023-12-05 14:51:46 发布

『东方卿§TIAN』

最新推荐文章于 2023-12-05 14:51:46 发布

阅读量3k

点赞数 2

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_55882332/article/details/124849666

版权

本文深入探讨机器学习中的信息熵和信息增益概念。通过提供的`calcInfoGain`函数，展示了如何计算信息增益，用于特征选择和决策树构建。函数接收特征、标签和特征列索引作为参数，计算信息熵并衡量不同特征值划分数据集带来的信息减少。

摘要由CSDN通过智能技术生成

import numpy as np

def calcInfoGain(feature, label, index):

'''

计算信息增益

:param feature:测试用例中字典里的feature，类型为ndarray

:param label:测试用例中字典里的label，类型为ndarray

:param index:测试用例中字典里的index，即feature部分特征列的索引。该索引指的是feature中第几个特征，如index:0表示使用第一个特征来计算信息增益。

:return:信息增益，类型float

'''

#*********** Begin ***********#

def total_cal(label):

label_set = set(label)

result = 0

for i in label_set:

p=list(label).count(i)/len(label)

result-=p * np.log2(p)

return result

aba=[]

length=[]

for value in set(feature[:,index]):

# num=feature[:,index].count(value)

sub_label = []

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

『东方卿§TIAN』

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

机器学习笔记 - 信息增益和香农熵

学以致用知行合一

09-20

539

如何合理的划分数据集？划分数据集的大原则是：将无序的数据变得更加有序。组织杂乱无章数据的一种方法就是使用信息论度量信息，在划分数据集之前之后信息发生的变化称为信息增益，知道如何计算信息增益，我们就可以计算每个特征值划分数据集获得的信息增益，获得信息增益最高的特征就是最好的选择。在可以评测哪种数据划分方式是最好的数据划分之前，我们必须学习如何计算信息增益。集合信息的度量方式称为香农熵或者简称为熵，这个名字来源于信息论之父克劳德·香农。熵定义为信息的期望值，在明晰这个概念之前，我们必须知道

[头歌]-信息熵与信息增益

weixin_45794390的博客

06-01

1787

[头歌]-信息熵与信息增益

参与评论您还未登录，请先登录后发表或查看评论

信息熵与信息增益

qq_30185271的博客

09-19

1135

信息熵与信息增益 信息熵 信息熵的出现解决了信息的量化度量问题，由克劳德香农提出，用来描述信息源的不确定程度。信息论之父克劳德香农第一次用数学语言阐明了概率与信息冗余度的关系。我们可以根据一件事情出现的概率来衡量其确定性。假设： 1.设不确定性函数为f，则f是概率p的单调递减函数。 2.两个独立事件所产生的不确定性等于各自不确定性之和，称为可加性。同时满足以上两个条件的函数

信息熵和信息增益

qq_43544736的博客

10-12

857

通俗理解： 信息熵是描述事物的复杂程度，即一件事发生的不确定性。 信息增益是指一个节点分裂后对这个事件不确定性或者纯度带来的影响。当一件事发生的可能性越低时，其不确定性越大，相应的纯度越低 信息增益在分类任务中的作用表现在，通过计算信息熵，看哪个属性对分类结果的影响最大。基本表示 信息熵，表示X事件发生的不确定性。条件熵，表示，在X的情况下，Y带来的不确定性 信息增益 ...

信息熵及信息增益

To the beyond and infinity!

02-13

1464

前言最近看西瓜书，看到第四章决策树，在对样本的属性进行划分选择的时候用到了信息增益，其中包含了 信息熵（information entropy) 和 信息增益(information gain) 两个概念，由于没学过信息论这门课，然后在知乎上看到的DerisWeng博士的一个扫盲视频，讲的挺好，结合自己的理解阐述一下。 信息熵 当某种事情有多种微观态的条件下，这件事情（宏观态）对某人（观察者）而...

对信息熵与信息增益的初步理解

最新发布

08-30

接着，引入信息增益概念，即原始熵值与划分后熵值的差，用于衡量节点划分的效果。在构建决策树时，选择信息增益最大的节点作为根节点，以提高分类效果。通过比较不同候选节点的信息增益，最终确定根节点为overlook。...

机器学习-西瓜书学习笔记-第四章决策树及代码

08-13

- 信息熵：信息熵是度量样本集合纯度的一种指标 - 信息增益：使用属性进行划分所获得的纯度提升量 - 属性偏好问题：信息增益对可取值数目较多的属性有偏好 - 增益率：增益率是信息增益与属性的固有值的比值 - ...

机器学习实战(第三章-决策树-ID3算法-所有代码与详细注解-python3.7)

12-09

2. **ID3算法原理**：ID3算法基于信息熵和信息增益来选择最优特征进行分裂。信息熵衡量数据的纯度或不确定性，信息增益则是选择特征时减少的平均信息熵。ID3算法递归地将数据集划分为更纯净的子集，直到所有子集都...

决策树——信息熵与信息增益

weixin_43826596的博客

04-14

2770

参考：[https://www.cnblogs.com/YouXiangLiThon/p/7214393.html] 信息熵(Entropy)：度量信息的不确定度，熵越大，不确定度越高，在分类中类别越多，也就说包含的信息越多。计算方法：X表示某个分类，P（x）选择该分类的概率。H（X）所有类别之和例如：天气预报的例子，在14天中，play=no的事件为5，paly=Yes的事件为9.分类之...

信息熵与信息增益——python

Vicky

07-05

3927

根据本关所学知识，完成calcInfoEntropy函数，calcHDA函数以及calcInfoGain函数。为了完成本关任务，你需要掌握：信息熵 信息是个很抽象的概念。人们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年，香农提出了“信息熵”的概念，才解决了对信息的量化度量问题。信息熵这个词是香农从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。信源的不确定性越大，信息熵...

信息熵、信息增益

csdn_kelly的博客

12-23

843

关于信息熵、信息增益的一些思考 1.为什么信息熵越大，蕴含的信息量越多？拿二分类问题来说，首先信息熵的公式是 Ent(D) = -(p*log_2( p)+(1-p)*log_2(1-p)) p是某一类（假设label=0）的概率，那么1-p就是另一类的概率，图像如下：上图x轴时概率p，y轴时信息熵，由图像可得，当p=0或者1时，熵最小为0，此时变成了只有一类的问题，那么类别就很确定，只能是p=1所对应的类，蕴含的信息量少而确定，而当p=0.5时，此时信息熵最大为1，而且对于类别的预测就和随机猜测结

信息熵与信息熵增益

weixin_30307921的博客

12-06

202

【深度学习-信息熵与信息增益】

zhangqw1013的博客

12-05

1655

熵的应用主要是在决策树方面，信息熵主要用于计算信息增益，信息增益的大小决定了再进行决策树构建时，哪些特征先决策。一般情况，选择信息增益的大的特征先决策，信息增益小的特征后决策.

理解信息熵与信息增益

weixin_40893448的博客

10-06

1258

熵：表示随机变量的不确定性。条件熵：在一个条件下，随机变量的不确定性。 信息增益：熵 -条件熵。表示在一个条件下，信息不确定性减少的程度。通俗地讲，X(明天下雨)是一个随机变量，X的熵可以算出来，Y(明天阴天)也是随机变量，在阴天情况下下雨的信息熵我们如果也知道的话（此处需要知道其联合概率分布或是通过数据估计）即是条件熵。X的熵减去Y条件下X的熵，就是信息增益。具体解释：原本明天下雨的信息熵是2，条件熵是0.01（因为如果知道明天是阴天，那么下雨的概率很大，信息量少），这样相减后为1.99。在获得阴天这.

Python机器学习实战：决策树详解与信息增益原理

在Python机器学习算法的实训课程中，第四部分着重介绍了决策树这一重要的学习方法。决策树是一种直观且易于理解的分类模型，它以树状结构表示一系列基于特征的决策规则。每个内部节点代表一个特征测试，分支表示测试...