机器学习笔记-信息熵

最新推荐文章于 2023-07-14 11:41:24 发布

迷路剑客

最新推荐文章于 2023-07-14 11:41:24 发布

阅读量569

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/baichoufei90/article/details/83098930

版权

机器学习专栏收录该内容

20 篇文章 1 订阅

订阅专栏

机器学习笔记-信息熵

0x00 系列文章目录

0x01 摘要

本文简单介绍信息熵、条件熵、信息增益、交叉熵等熵相关的基础概念。

0x02 熵

2.1 信息量

信息的大小跟随机事件的概率有关：越小概率的事情发生了产生的信息量越大（目睹飞碟）；越大概率的事情发生了产生的信息量越小（太阳东升西落）。因此一个具体事件的信息量应该是随着其发生概率而递减的，且不能为负。

2.2 信息熵

而信息熵则是在结果出来之前对可能产生的信息量的期望——信息熵是考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望之和。离散随机变量的概率分布为p(xi)，则熵(Entropy)的公式如下：

推导过程可以点通俗理解信息熵

2.3 信息增益

信息增益恰好是：信息熵-条件熵。换句话说，信息增益代表了在一个条件下，信息复杂度（不确定性）减少的程度。
在决策树中，信息增益是针对某个特征有无时信息量的差值，即信息增益越大，则这个特征的选择性越好。
概率定义：待分类的集合的熵和选定某个特征的条件熵之差（这里指的是经验熵或经验条件熵，由于真正的熵并不知道，是根据样本计算出来的），公式如下：
　

关于信息增益的更多讯息请点击通俗理解决策树算法中的信息增益

2.4 条件熵

上面提到了条件熵H(Y|X)，他是用来解释信息增益而引入的概念。
在给定随机变量X的条件下，随机变量Y的条件熵被描述为：
在给定X的条件下，Y的条件概率分布的熵对X的数学期望。也就是说，条件熵H（Y|X）表示在已知随机变量X的条件下随机变量Y的不确定性。
在机器学习中为选定某个特征后的熵，公式如下：

关于条件熵的更多信息请点击通俗理解条件熵

2.5 交叉熵

一组事件的两个分布p，q，则它们在给定样本集上的交叉熵定义如下：

交叉熵越低，这个策略就越好，最低的交叉熵也就是使用了真实分布所计算出来的信息熵，因为此时，交叉熵 = 信息熵。
这也是为什么在机器学习中的分类算法中，我们总是最小化交叉熵，因为交叉熵越低，就证明由算法所产生的策略最接近最优策略，也间接证明我们算法所算出的非真实分布越接近真实分布。当两个分布完全相同时，交叉熵取最小值。
即交叉熵可衡量两个分布的相似程度，越小越相似。

参考文档

通俗理解信息熵
 通俗理解条件熵
 如何通俗的解释交叉熵与相对熵?-CyberRep
信息&熵&信息增益

迷路剑客

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记-信息熵

0x01 摘要本文简单介绍信息熵、条件熵、信息增益、交叉熵等熵相关的基础概念。0x02 熵2.1 信息量信息的大小跟随机事件的概率有关：越小概率的事情发生了产生的信息量越大（目睹飞碟）；越大概率的事情发生了产生的信息量越小（太阳东升西落）。因此一个具体事件的信息量应该是随着其发生概率而递减的，且不能为负。2.2 信息熵而信息熵则是在结果出来之前对可能产生的信息量的期望——信息熵是考虑...
复制链接

扫一扫