1. 简述信息熵(Entropy)推导的辛钦定理(The Khinchin Axioms for Entropy,1957)。
假设X为1,2,……k的离散随机变量,并将Pr(X=i)缩写为pi。若要将此分布简化为一个函数H[X],那H[X]必须服从以下定理。其中,我们定义H[X,Y]为两随机变量(X,Y)的函数,H[Y|X=x]是条件分布Pr(Y|X=x)的函数。
① H[X]仅取决于X的概率分布。
② 给定k值,当所有i都满足pi=1/k时,此时的H[X]是最大的。(即随机变量的取值为均匀分布时,信息熵最大)
③ 假设Y是1,2,……m(m>k)的随机变量,如果Pr(Y=i)=pi(当i<=k),Pr(Y=i)=0(当k<i<=m),那么H[Y]=H[X]。(即0概率事件不影响信息熵)
④ 对于任意随机变量X和Y,都有
(具体内容可参考http://www.stat.cmu.edu/~cshalizi/350/2008/lectures/06a/lecture-06a.pdf)
2. 推导The Khinchin Axioms for Entropy,1957。
可以证明,当且仅当H[X]具有以下形式时,H[X]满足上方的辛钦定理:
当b>1时,H[X]称为香农熵,在计算机科学与信息论中,b通常取2;在统计力学和理论统计中,b通常取e。
证明如下:
当X和Y是独立的,由(1)式可得
根据(3)式,任意满足下式形式的函数都将满足辛钦定理(α>=0):
Hα[X]称为Renqi熵,由于辛钦的第④定理是“如果独立则可加”规则的特例,所以香农熵应该是Renqi熵的特例,即α&