关于信息熵最大值的讨论

最新推荐文章于 2024-05-07 14:34:16 发布

王延凯的博客

最新推荐文章于 2024-05-07 14:34:16 发布

阅读量1.5w

点赞数 4

文章标签：信源熵的最大值

本文链接：https://blog.csdn.net/weixin_38468077/article/details/100435303

版权

关于信息熵最大值的讨论

最大离散熵定理
均值受限的最大熵值
参考书目

最大离散熵定理

$\qquad$ 一般的离散信源的r个概率分量分别为 $p_1,$ $p_2,$ $. . .,$ $p_r,$ 必须满足条件 $\sum_{i=1}^rp_i=1$ .熵函数 $H(p_1,p_2,...,p_r)$ 的最大值，即在满足约束条件 $\sum_{i=1}^rp_i=1$ 的条件下，熵函数 $H(p_1,p_2,...,p_r)$ 的最大值。

以下为求解证明过程：
按照在高数上求取极值点的方法，首先根据拉格朗日数乘法，做出辅助函数，如下所示：
$F(p_1,p_2,...,p_r)=H(p_1,p_2,...,p_r)+\lambda[\sum_{i=1}^r{p_i-1}] \\ \quad\quad\quad\quad\quad=-\sum_{i=1}^r{p_ilnp_i+\lambda[\sum_{i=1}^rp_i-1]}\qquad\qquad\qquad(公式1)$

$\qquad$ 在公式中， $\lambda$ 为待定常数，对辅助函数 $F(p_1,p_2,...,p_r)$ 中的r个变量 $p_i (i=1,2,...,r)$ ,分别求偏导，并使之为0，可以得到方程;
$\quad\quad\quad-(1+lnp_i)+\lambda=0 \quad\quad(i=1,2,...,r)\qquad\qquad(公式2)$

对上述方程求解可得：
$\qquad\qquad\qquad p_i=e^{\lambda-1}\quad\quad(i=1,2,...,r)\qquad\qquad\qquad(公式3)$

将以上公式三带入 $\sum_{i=1}^rp_i=1$ 可得：
$\quad \sum_{i=1}^rp_i=\sum_{i=1}^re^{(\lambda-1)}=re^{(\lambda-1)}=1$

对上式整理可得：
$\qquad\qquad\qquad\quad e^{(\lambda-1)}=\frac{1}{r} \qquad\qquad(公式4)$

$\qquad$ 由上边的公式三和公式四可以解得使熵函数 $H(p_1,p_2,...,p_r)$ 取得的条件极大值，也就是熵函数 $H(p_1,p_2,...,p_r)$ 的最大值的信源符号 $a_i (i=1,2,...,r)$ 相应的概率分布
$\quad\qquad\quad p_i=\frac{1}{r} \qquad\qquad (i=1,2,...,r)\qquad(公式5)$

根据公式五可以求得熵函数的最大值
$H_0(p_1,p_2,...,p_r)=H(\frac1r,\frac1r,...,\frac1r)\\ \quad\quad\qquad\qquad=-\sum_{i=1}^r{\frac1rlog{\frac1r}}\\\qquad\qquad\qquad\qquad\qquad\qquad=logr (比特/信符)（公式6）$

在一般情况下，离散信源的熵不会超过公式6所计算的数值，也就出现了以下的公式：
$\quad\quad\qquad H(p_1,p_2,...,p_r)\leq{logr} \qquad(比特/信符)\quad(公式7)$

$\quad$ 以上也就是最大离散熵定理的证明过程。这个定理表明，在所有符号种数相同，而符号的概率分布不同的离散信源中，以先验等概的离散的信源的信息熵最大，其最大值为信源符号种数 $r$ 的对数。这说明，离散信源熵的最大值，只取决于信源的符号种数 $r$ ，符号种数 $r$ 越大，其信息熵的最大值也越大。

均值受限的最大熵值

$\qquad$ 最大离散熵是离散信源在满足约束条件 $\sum_{i=1}^rp_i=1$ 下，推导得出的一般性结论，如果在此基础上再加上一个约束条件：信源输出符号 $a_i (i=1,2,...,r)$ 的均值受限，即
$\sum_{i=1}^r{a_ip_i}=m$
同样的，采用拉格朗日数乘法来构造辅助函数:
$F(p_1,p_2,...,p_r)=H(p_1,p_2,...,p_r)+\lambda_1[\sum_{i=1}^r{p_i-1}]\\+\lambda_2[{\sum_{i=1}^r}a_ip_i-m]$

$\qquad$ 其中的 $\lambda_1$ 、 $\lambda_2$ 均为待定常数，对辅助函数 $F(p_1,p_2,...,p_r)$ 中的变量 $p_i (i=1,2,...,r)$ 分别求偏导，并使其为0，可得如下方程：
$-(1+ln{p_i})+\lambda_1+\lambda_2a_i=0 \qquad(i=1,2,...,r)$

对上述方程整理可得 $p_i$ 表达式：
$p_i=e^{\lambda_1-1}e^{\lambda_2a_i}\qquad(i=1,2,...,r)$

将 $p_i$ 带入约束方程 $\sum_{i=1}^rp_i=1$ 得：
$\sum_{i=1}^r{e^{\lambda_1-1}e^{\lambda_2a_i}}=1\Longrightarrow e^{(\lambda_1-1)}=\frac1{\sum_{i=1}^r{e^{\lambda_2a_i}}}$

结合 $p_i$ 公式，对上式等式两边同乘 $e^{\lambda_2a_i}$ 可得:
$e^{\lambda_2a_i}e^{(\lambda_1-1)}=\frac{e^{\lambda_2a_i}}{\sum_{i=1}^r{e^{\lambda_2a_i}}}\Longrightarrow p_i=\frac{e^{\lambda_2a_i}}{\sum_{i=1}^r{e^{\lambda_2a_i}}}\quad(i=1,2,...,r)\qquad(公式1)$

再由另一个约束条件 $\sum_{i=1}^r{a_ip_i}=m$ ,将p_i带入可得：
$\sum_{i=1}^r{a_i\frac{e^{\lambda_2a_i}}{\sum_{j=1}^r{e^{\lambda_2a_j}}}}=m$

在计算 $\sum_{i=1}^r{a_i(.)}$ 时，可将 $\sum_{j=1}^r{e^{\lambda_2a_j}}$ 视为常数 $C$ ,则有：
$\sum_{i=1}^r{a_i\frac{e^{\lambda_2a_i}}{C}}=m \Longrightarrow \sum_{i=1}^ra_ie^{\lambda_2a_i}=Cm=m \sum_{j=1}^r{e^{\lambda_2a_j}}\qquad(公式2)$

$\qquad$ 由上式可以求得待定常数 $\lambda_2$ ，并将其带入公式1 $p_i$ 表达式，则可以得出使得熵函数 $H(p_1,p_2,...,p_r)$ 达到最大值的 $p_1,p_2,p_3,...,p_i$ 等各个频率分量，进而求得熵函数的最大值。
事实上，我们可以根据概率分量 $p_i (i=1,2,...,r)$ 的表达式，就可以直接构成满足约束条件 $\sum_{i=1}^rp_i=1$ 和 $\sum_{i=1}^r{a_ip_i}=m$ 的最大熵表达式：
$H_0(p_1,p_2,...,p_r;m)=-\sum_{i=1}^r{p_ilnp_i}\\=-\sum_{i=1}^r \left[{\frac{e^{\lambda_2a_i}}{\sum_{j=1}^r{e^{\lambda_2a_j}}}ln{\frac{e^{\lambda_2a_i}}{\sum_{j=1}^r{e^{\lambda_2a_j}}}}}\right]\\ =-\sum_{i=1}^r\left[{\frac{e^{\lambda_2a_i}}{\sum_{j=1}^r{e^{\lambda_2a_j}}}}ln{(e^{\lambda_2a_i})}\right]+\sum_{i=1}^r{\left[\frac{e^{\lambda_2a_i}}{\sum_{j=1}^re^{\lambda_2a_j}}ln{(\sum_{j=1}^re^{\lambda_2a_j})}\right]}\qquad(式3)$
$\qquad$ 对于上式的化简，我们采用与第一节同样的方法，在计算 $\sum_{i=1}^r{(.)}$ 时，可将 $\sum_{j=1}^r{e^{\lambda_2a_j}}$ 视为常数 $C_1$ ,将上式化简如下：
$式3=-\sum_{i=1}^r\left[{\frac{e^{\lambda_2a_i}}{C_1}}ln{(e^{\lambda_2a_i})}\right]+\sum_{i=1}^r{\left[\frac{e^{\lambda_2a_i}}{C_1}ln{(\sum_{j=1}^re^{\lambda_2a_j})}\right]}\\=-\frac{\sum_{i=1}^re^{\lambda_2a_i}}{C_1}ln(e^{\lambda_2a_i})+\frac{\sum_{i=1}^re^{\lambda_2a_i}}{C_1}ln{(\sum_{j=1}^re^{\lambda_2a_j})}\\=-\frac{\lambda_2\sum_{i=1}^ra_ie^{\lambda_2a_i}}{C_1}+\frac{\sum_{i=1}^re^{\lambda_2a_i}}{C_1}ln{(\sum_{j=1}^re^{\lambda_2a_j})}\qquad(式4)$

在公式2两端同乘 $\lambda_2$ 得
$\lambda_2\sum_{i=1}^ra_ie^{\lambda_2a_i}=m\lambda_2 \sum_{j=1}^r{e^{\lambda_2a_j}}$

带入上述公式4则有：
$式4=-\frac{m\lambda_2 \sum_{i=1}^r{e^{\lambda_2a_i}}}{C_1}+\frac{\sum_{i=1}^re^{\lambda_2a_i}}{C_1}ln{(\sum_{j=1}^re^{\lambda_2a_j})}\\=-\frac{m\lambda_2 C_1}{C_1}+\frac{C_1}{C_1}ln{(\sum_{j=1}^re^{\lambda_2a_j})}\\=-m\lambda_2+ln{(\sum_{j=1}^re^{\lambda_2a_j})}$

经过化简以后最大熵函数得表达式为：
$H_0(p_1,p_2,...,p_r;m)=-m\lambda_2+ln{(\sum_{j=1}^re^{\lambda_2a_j})}\qquad(式5)$

$\qquad$ 最后再将公式2解出的待定常数 $\lambda_2$ 带入式5，则可以直接计算出熵函数 $H_0(p_1,p_2,...,p_r;m)$ 的最大值。

参考书目

信息论与编码第二版姜丹编著

王延凯的博客

关注

4
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
关于信息熵最大值的讨论

关于信息熵最大值的讨论最大离散熵定理均值受限的最大熵值最大离散熵定理\qquad一般的离散信源的r个概率分量分别为 p1,p_1,p1,p2,p_2,p2,...,...,...,pr,p_r,pr,必须满足条件∑i=1rpi=1\sum_{i=1}^rp_i=1∑i=1rpi=1.熵函数H(p1,p2,...,pr)H(p_1,p_2,...,p_r)H(p1,p2,...,p...
复制链接

扫一扫