1.自信息量:定义为,表示事件发生概率越大,自信息量越少,反之,自信息量越多。
2.熵(香浓熵):自信息量的期望。熵越大系统越混乱,也越稳定,因为事物总是自发的变得无序。熵越大系统不确定性越大。当
时,熵值达到最大,不确定性达到最大,见下图。
熵的值总是满足
用拉格朗日乘子法来证明右不等式:
已知条件
最大化
构建拉格朗日函数
令函数对求偏导且等于0
在极值点出取得
用一个例子来粗暴地理解熵:
假如一个班级有32号人,在不给定任何信息的条件下让你猜第一名是谁,用二分查找法你可能会猜:
—— 是1-16吗? ——是!
—— 是1-8吗? ——是!
—— 是1-4吗? ——是!
—— 是1-2吗? ——是!
—— 是1号吗? ——是!
此种情况你用5次就可以达到目的,因此熵可以不科学地理解为是一种代价。
但是在你知道他们班的学生学号是根据平时成绩优劣来排的且第一名跟班上其他人的成绩差距很大的前提下你可能会猜
—— 是1号 ——是!
这也说明了给定条件会使得熵值变小,代价变小。
熵定义的实际上是一个随机变量的不确定性,熵最大的时候说明随机变量最不确定,换句话说也就是随机变量最随机,对其行为做预测也最难。因此从这个定义上讲最大熵原理的实质就是在已知部分知识的前提下,关于位置分布最合理的推断就是符合已知条件最不确定最随机最差的推断,任意偏倚的选择都会是给推断增加约束和假设,而这些假设和推断是虚假的,我们根本无法掌握到这些信息。
相对熵(relative entropy)又称为KL散度(Kullback-Leibler divergence),KL距离,是两个随机分布间距离的度量。记为DKL(p||q)DKL(p||q)。若假定q真实分布p的一个估计,则相对熵表示假设分布q的无效性或是假设分布q多出的离散程度。
4.交叉熵:等于相对熵加上真实熵。我们知道
令
则交叉熵实际上是求估计分布下的估计熵。
5.条件熵:设,
。在X发生的条件下Y的条件熵定义为:
------未完待续
[1]最大熵学习笔记(一) 预备知识. [Online] https://blog.csdn.net/itplus/article/details/26549871