熵(entropy)是一种不确定性的度量。
熵其实是一种无序程度的度量方式,越混乱越无规律,熵值就越大,反之熵值越小。
有几种不同类型的熵,在自然语言处理或者机器学习领域中,提到的熵都是香农熵(Shannon entropy)。
熵的公式:对于事件X,有n种可能结果,且概率分别为,公式为:
基本性质:
1)均匀分布具有最大的不确定性
均匀分布具有最大的熵,给定 n 个可能的结果,最大的熵在所有结果的概率相同时得到。在伯努利试验中,当p=0.5时,熵达到最大。
2)对于独立事件,不确定性是可加的
两个独立事件的联合熵等于独立事件的熵的和。
3)加入发生概率为0的结果并不会有影响
增加一个概率为0的结果,并不会影响对于不确定性的度量。
4)不确定性的度量应该是连续的
对数函数在定义域上每个点都是连续的。在子集上有限数量函数的和和乘积也是连续的。由此可能得出熵函数也是连续的。
5)具有更多可能结果的均匀分布有更大的不确定性
6)事件拥有非负的不确定性
7)有确定结果的事件具有0不确定性,即确定事件的熵为0
8)调转参数顺序没有影响