笔者已在知识能量化吗?(兼评最大熵原理)中简要点明了:一个分布P的香农熵(如无特指,以下简称熵)等于常数减去分布P到均匀分布U的Kullback-Leibler散度,后者度量了P偏离均匀分布的程度。所以:最大熵分布不是别的,就是满足约束的最均匀分布。使用最大熵方法的实质就是在已知条件内作出尽可能均匀的猜测。
这个论断有一个漏洞:Kullback-Leibler散度不是衡量分布间差异的唯一手段,如果用L1或L2范数来计算P偏离均匀分布的程度,那么最大熵分布就未必是最接近均匀的。Kullback-Leibler散度不是度规(metric),不对称也不符合距离不等式,它在这方面不如运土距离(Earth Mover Distance)。再者,Kullback-Leibler散度又称相对熵,本身就是和香农熵配套的概念,给它设置优越性并不比直接假设香农熵的优越性更弱更合理。
另一方面,即使从熵的物理起源来看,最大化香农熵也未必是符合热力学的选择。Tsallis熵就是用作热力学熵的另一个备选,它定位于关联短程性和广延量假定失效的场合,最大化Tsallis熵可以给出长尾幂律分布,这点使它在特定场合(如复杂系统)比香农熵更抓眼球。
为了彻底解决香农熵必要性的问题,我们从散度的必要性着手。令D(P;Q)代表概率分布P(X)到Q(X)的偏离程度(Divergence常被译作散度,此处沿用),两分布均定义在同一支撑{X|X=xi}上。则以下的条件有助于确定D(P;Q)的形式:
(1)粗粒化减小差异。直观地说,两幅图像较相似,那么透过模糊的镜片看去会更相似。选取X的两个不同取值xi,xj,将事件“X=xi”和“X=xj”合并为一个取值m表示,得到的新变量X'称为X的粗粒化,其上自然诱导出“新”分布P'和Q’满足P'(X'=m)=P(X=xi)+P(X=xj),它们是P和Q的模糊版。这时直观要求可被表示为:恒有D(P';Q’)≤D(P;Q)。
可以证明:满足该点的D(P;Q)一定是f-散度。
(2)贝叶斯是正确的。当我们不能确定分布是什么的时候,自然会猜测偏离目标分布期望最小者。即:选取P=argmin ∑W(Qn)D(P;Qn),式中Qn表示真实分布的第n个候选,W(Qn)表示Qn恰是真实分布的概率,∑对全体n值求和。然而,贝叶斯方法给我们另一种答案:把各个Qn看作是条件概率分布,则有P(x)=∑W(Qn)·Qn(x).这两种方法得的P(x)总一致吗?
可以证明:总是一致时D(P;Q)一定是Bregman散度。
(1)和(2)显然都是合理的要求。在这基础上,可以证明:如果在概率分布上定义的D(P;Q)既是Bregman散度又是f-散度,则它一定是Kullback-Leibler散度。
既然Kullback-Leibler散度是表示分布间差异的唯一解,加上本文开头的说明就得到:香农熵在同样前提下,也是表示分布均匀程度的唯一解(除不重要的常数差别外)。所以,只要你认为分布间的差异应该满足这两个要求,最均匀分布和最大熵分布基本是一回事,原推理无误。
在类似思路下很容易说明香农互信息I(X;Y)是表示随机变量X,Y间依赖程度的唯一解,因为它就是把Kullback-Leibler散度运用到联合分布的特例。
总结一下:香农信息论的基础概念有着无可替代的天然地位,不存在任何对具体函数形式的ad hoc要求,也不受限于通信编码这个特定的应用背景。类似地,从物理角度看这说明Tsallis熵这样的广义熵,无法真的和香农熵匹敌——因为它不是均匀程度的自然反映。
统计物理学应该建立在更加自然的基础上, @Again 君在答案如何理解量子物理或统计物理中几乎无处不在的 exp(-E/kT) ? 所用的取最概然分布+斯特林渐近+泰勒展开法虽然是教材得出正则分布的经典方法,但其中多处近似往往令人心疑其适用范围。如果直接从最大化香农熵来得出指数形式,那就不需要什么近似了,我们业已证明除了均匀性外并不需要多强的假定。 @理呆哥 @Yongle Li @章彦博 @melonsyk @贾明子 @qfzklm @空门 的意见也可以参考。
参考文献:
IEEE Transactions on Information Theory 55(11):4925 - 4931
DOI: 10.1109/TIT.2009.2030485