胡江堂,北京大学软件学院
1. 物理学的熵
2. 信息论的熵
3. 熵和主观概率(一个简单注释
4. 熵的性质
4.1. 当所有概率相等时,熵取得最大值
4.2. 小概率事件发生时携带的信息量比大概率事件发生时携带的信息量多
5. 最大熵原理:直觉讨论
6. 最大熵原理:一个手工例子
7. 最大熵原理:正式表述
8. 最大熵模型的训练:GIS算法
9. 最大熵模型:金融领域内的应用
参考文献
这篇读书笔记主要写了对熵的理解、对最大熵原则的理解,还有一个手工计算的例子。在处理一般化的最大熵模型时,我采用了我偏爱的连续随机变量形式,而不是一般有助于计算机理解的离散形式。连续而非离散的处理方式的一个好处就是,它能非常方便地推出最大熵模型的解是一个指数形式。如果使用离散形式,一样的结论,那符号就看着复杂多了。
所有的东西都来自篇末的参考资料。
1. 物理学的熵
熵是一个物理学概念,它是描述事物无序性的参数,熵越大则无序性越强。从宏观方面讲(根据热力学定律),一个体系的熵等于其可逆过程吸收或耗散的热量除以它的绝对温度;从微观讲,熵是大量微观粒子的位置和速度的分布概率的函数。自然界的一个基本规律就是熵递增原理,即,一个孤立系统的熵,自发性地趋于极大,随着熵的增加,有序状态逐步变为混沌状态,不可能自发地产生新的有序结构,这意味着自然界越变越无序。
2. 信息论的熵
在物理学中,熵是描述客观事物无序性的参数。信息论的开创者香农认为,信息(知识)是人们对事物了解的不确定性的消除或减少。他把不确定的程度称为信息熵。假设每种可能的状态都有概率
,我们用关于被占据状态的未知信息来量化不确定性,这个信息熵
即为:
其中是以2为底的对数,所以这个信息用位衡量。前面说过,在物理学的背景下,这个不确定性被称为熵(在通讯系统中,关于传输的实际信息的不确定性也被称为数据源的熵)。