自信息、互信息、熵、最大熵

最新推荐文章于 2023-03-15 10:00:01 发布

又又2020

最新推荐文章于 2023-03-15 10:00:01 发布

阅读量2.5k

点赞数

文章标签：自然语言处理 python 机器学习

本文链接：https://blog.csdn.net/qq_41939332/article/details/104886002

版权

在这里插入图片描述
信息是对事物运动状态或存在方式的不确定性的描述。

1. 自信息：一个事物本身所包含的信息量，由事件的不确定性决定的。
设事件 x_i的概率为p(x_i)，则它的自信息量I(x_i)定义为：
在这里插入图片描述

2. 自信息满足的公理化条件

（1）I(x_i）是p的严格递减函数，概率越小，事件发生的不确定就越大，事件的自信息量就越大。
（2） 极限情况下，当概率趋近于0时，自信息量等于1。当概率趋近于1时，自信息量等于0。
（3）由两个相对独立的不同的信息所提取出的自信息量应等于它们分别提供的自信息量之和，即自信息量满足可加性。

3. 互信息：一个事件所给出关于另一个事件的信息量。
在这里插入图片描述
互信息就是已知事件y后所消除的关于x的不确定性。

用平均信息量来表征整个信源的不确定度。平均信息量称为信息熵、信源熵，简称为熵。
熵表示信源X每发一个信息所提供的平均信息量，也可以视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大，它的不确定性越大，那么正确估计其值的可能性就越小。
若X是一个离散型随机变量，其概率分布为p(x)=P(X=x), 则X的熵H(x)定义为：

单位为二进制比特（bit，binary unit).

符合已知知识的概率分布可能有多个，但使熵值最大的概率分布最真实的反映了事件的分布情况，因此熵定义了随机变量的不确定性。
当熵最大时，随机变量最不确定，最难准确预测其行为，也就是说，在已知部分知识的前提下，关于未知分布最合理的推断应该是符合已知知识最不确定或最大随机的推断。
通常的做法是，根据已知样本设计特征函数，假设存在k个特征函数f_i (i=1,2,…,k)，它们都在建模过程中对输出有影响，那么，所建立的模型应满足所有这些特征的约束，即所建立的模型p应该属于这k 个特征函数约束下所产生的所有模型的集合C。使熵H值最大的模型用来推断某种语言现象存在的可能性，或者作为进行某种处理操作的可靠性依据，即：