目录
在机器学习中,信息熵(Entropy)是一个非常重要的概念,因为围绕着熵有着许许多多的应用和算法。信息熵的概念是由香农在1948年提出的,熵这个概念最初源于热力学,热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。所以,简单来理解,信息熵描述的就是信息的不确定度。
1 信息
在给出信息熵的定义之前,必须要先描述一下信息,一条信息的信息量大小和它的不确定性有直接的关系。我们需要搞清楚一件非常非常不确定的事,或者是我们一无所知的事,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,我们就不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。比如,有人说广东下雪了。对于这句话,我们是十分不确定的。因为广东几十年来下雪的次数寥寥无几。为了搞清楚,我们就要去看天气预报,新闻,询问在广东的朋友,而这就需要大量的信息,信息熵很高。再比如,中国男足进军2022年卡塔尔世界杯决赛圈。对于这句话,因为确定性很高,几乎不需要引入信息,信息熵很低。
考虑一个离散的随机变量,由上面两个例子可知,信息的度量应该依赖于概率分布
,因此我们想要寻找一个函数
,它是概率
的单调函数。怎么寻找呢?如果我们有两个不相关的事件 x 和y,那么观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和,即:
。
因为两个事件是独立不相关的,因此根据概率公式有 。根据这两个关系,很容易看出I(x)一定与p(x) 的对数有关 (因为对数的运算法则是
。因此,我们有