提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
克劳德·艾尔伍德·香农(英语:Claude Elwood Shannon,1916年4月30日-2001年2月26日),美国数学家、电子工程师和密码学家,被誉为信息论的创始人。香农是密歇根大学学士,麻省理工学院博士。1948年,香农发表了划时代的论文——通信的数学原理,奠定了现代信息论的基础。
一、熵是什么?
Shannon提出了熵的概念。熵是一个随机变量不确定性的度量,对于一个离散型随机变量,离散熵可以定义为
其中,log 一般以 2 为底。为了加深对熵的理解,下面举两个例子来说明。
【例 1】设随机变量X为抛一枚均匀硬币的取值,其中正面朝上用 1 表示,反面朝上用 0 表示 ,求解随机变量 X的熵。
【解】由于
所以
【例 2】设随机变量 Y为抛一个六面均匀的筛子,其中Y={1,2,3,4,5,6} ,求解随机变量 Y 的熵。
【解】由于
所以
由于1=log2<log6, 所以随机变量 X 的不确定性比 Y 小。
推论:必然事件的熵为 0 。
二、熵的性质
信息论之父克劳德·香农给出的信息熵的三个性质
1.单调性,发生概率越高的事件,其携带的信息量越低;
2.非负性,信息熵可以看作为一种广度量,非负性是一种合理的必然;
3.累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的 和,这也是广度量的一种体现。
1.条件熵
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。
2.联合熵
联合熵表征了两事件同时发生系统的不确定度,设分布为 p(x,y) 的一对随机变量 (X,Y) ,其联合熵定义为
其数学推导如下
由上式可以知道
由上面两个式子可以得到先观察哪个随机变量对最终信息量的获取是没有影响的。基于这个结论,我们可以推导如果有n个随机变量处于一个随机系统中,那么我们获取其联合熵也是无关观察先后吗?答案是肯定的。为了说明原因,我们给出熵的链式法则
设随机变量 服从 ,则
上式的证明
从链式法则,我们可以更进一步得到,如果随机变量 是独立的,那么联合熵则可以表示为
3.互信息
对于两个随机变量 X和 Y ,如果其联合分布为 p(x,y) ,边缘分布为 p(x) ,p(y)则互信息可以定义为
我们做一下形式上的变换
上述变量的关系,可以使用Venn图表示如下
4.相对熵
也叫 KL 散度,它给出了两个分布之间的差异程度的量化,也就说相对熵代表的是这个两个分布的“距离”。两个概率密度函数 p(x)和q(x) 之间的相对熵定义为
从上式可以得到
证明如下
总结
这就是我经过一个学期信息论课程学习所了解到关于熵的一些知识。