一、说明
我觉得用最大熵来获取概率分布的方法很给力。您采用一些已知或约束,然后在这些条件下最大化信息熵,瞧!你有一个独特的概率分布。很酷的是,这些最大熵分布非常常见,因此这是一种重新推导我们日常遇到的许多分布的巧妙方法。对我来说,仅此一点就值得付出代价。但从信息论的角度来看,这些将是偏差最小的先验分布(我们最大化我们的无知),因此随后的贝叶斯定理实验将 最大化获得的信息。此外,自然界中发现的许多物理模式都倾向于最大熵概率分布。因此,即使作为理解世界的一种方式,最大熵也是一个非常有用且深入的工具。
以下是一些常见的概率分布以及如何根据最大熵原理推导出它们。
二、如何认识所谓的“熵”
要想认识谓熵的概念,首先要认识“信息”的价值,所谓“信息”的“价值”我们可以如下描述:
1)越是概率小的事物,其信息更有价值。
2)对于一个固定的分布,其总熵是个固定值。
3)对于一系列可变化参数的分布,其总熵是个函数。