如何理解信息量、信息熵、信息增益

最新推荐文章于 2023-09-07 16:02:59 发布

Tianxiadatong1001

最新推荐文章于 2023-09-07 16:02:59 发布

阅读量2.1k

点赞数 2

文章标签：信息熵信息增益决策树

本文链接：https://blog.csdn.net/Tianxiadatong1001/article/details/88623068

版权

如何理解信息熵

1. 信息的度量

首先需要明确的是，这里的信息和我们每天看新闻，看报纸获取的信息概念不完全相同，这里定义的信息是需要一个能够完全量化的概念，其中量化信息大小的量成为信息量。按照香农的观点，信息是用来消除随机不确定性的东西，其中，能够消除的“不确定性成分”越大，信息量肯定也越大。这时候，信息的“不确定性成分”人们自然会想到概率，因为概率越小，不确定性就越大，但是显然信息量不能与事件发生的概率划等号，因为前面已经提到，信息能够消除不确定性的成分越大，信息量越大。另外根据定义，信息不可能增加不确定性的东西，因此信息量总是非负数。此外，两个独立事件能够提供的信息应该是能够叠加的。按照香农给出的定义，信息量的定义为
$\log p(x) \tag {1.1}$
就是说信息x的信息量是随机事件X中事件x发生的概率p(x)的负对数，比如说彩票站开奖，中奖概率是1/10000，对于一个手握彩票号码是1234只关注自己是否中奖的甲来说，中奖号码是1234和非1234能够提供的信息量就是不同的，因为中奖这件发生的概率仅为1/10000，我们说中奖号码是1234提供的信息量是-log(1/10000)，而对于中奖号码非1234的话，只能未中奖事件的概率9999/10000，我们说中奖号码非1234提供的信息量是-log(9999/10000)，其中对于信息量运算时的底数没有严格的规定，我一般习惯使用自然对数，这对于理解信息这个概念时没有影响的。

2. 信息熵

前面提到的信息量，指的是在随机事件中，概率为p(x)的事件x发生的概率的相反数，这是需要重点理解的是，就是我们认为事件x已经发生了，那么它提供的信息就可以表示为在第一节提供的公式，这里一定要注意和概率的概念做区分。那么信息熵是怎么回事呢？信息熵借用热力学中熵的定义，将随机事件的的信息量的均值成为信息熵。信息熵的定义如下
$\tag {2.1}$
上面X表示随机事件，x表示随机事件的取值，比如说随机事件是从单选题中A、B、C、D四个选项中选出一个正确选项，那么明显X的取值集合为{A, B, C, D}，如果这四个选项正确的可能性相同，那么各自发生的概率为0.25，事件发生的信息量为 $-\log(0.25)$ ，那么这个事件的信息熵就可以通过下面这个式子计算
$H (x) = E (p (x))$

最低0.47元/天解锁文章

Tianxiadatong1001

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
如何理解信息量、信息熵、信息增益

如何理解信息熵1. 信息的度量首先需要明确的是，这里的信息和我们每天看新闻，看报纸获取的信息概念不完全相同，这里定义的信息是需要一个能够完全量化的概念，其中量化信息大小的量成为信息量。按照香农的观点，信息是用来消除随机不确定性的东西，其中，能够消除的“不确定性成分”越大，信息量肯定也越大。这时候，信息的“不确定性成分”人们自然会想到概率，因为概率越小，不确定性就越大，但是显然信息量不能与事件发...
复制链接

扫一扫