有关信息论和 error-control coding 的简单介绍

最新推荐文章于 2021-12-13 15:08:25 发布

bsn2020

最新推荐文章于 2021-12-13 15:08:25 发布

阅读量687

点赞数

文章标签：信息熵概率论自然语言处理神经网络

本文链接：https://blog.csdn.net/bsn2020/article/details/108931108

版权

本文简要介绍了信息论中的关键概念，包括熵的定义及其性质，强调了当所有基本事件概率相等时不确定度最大。详细阐述了互信息度的概念，解释了其物理意义和性质，并探讨了信息不增原理在通信中的作用。此外，还提及了error-control codes的重要性以及信息与压缩的联系。

摘要由CSDN通过智能技术生成

信息论

有关信息论和 error-control coding 的简单介绍

当一件事情可能有多种可能情况时，这件事情对某人而言，具体是哪种情况的不确定性，叫做熵。而，信息，是消除该人对该事情不确定性的事物（知识）。本问将简单介绍当年香农是如何定义熵的，为什么熵有单位以及各种各样的信息在 comminication channel 上的应用。

一。熵是如何定义的？

下面这段内容摘自 https://www.zhihu.com/question/22178202 返朴的回答。
香农的信息熵本质上是对我们司空见惯的“不确定现象”的数学化度量。譬如说，如果天气预报说“今天中午下雨的可能性是百分之九十”，我们就会不约而同想到出门带伞；如果预报说“有百分之五十的可能性下雨”，我们就会犹豫是否带伞，因为雨伞无用时确是累赘之物。显然，第一则天气预报中，下雨这件事的不确定性程度较小，而第二则关于下雨的不确定度就大多了。所以，事件对某一观察者而言的不确定性越大，熵就约大。想要消除该不确定性所需的信息就越大。

信息是一个物理量，像质量温度那样的物理量。当年定义质量温度都是先选择一个参照物，定义该参照物的质量为1千克或者温度为0摄氏度，然后再看所需测量的物体的质量和温度，相当于是多少个该参照物。所以，我们测量信息，也需要先选定一个参照物，定义为 1 比特（或者1纳特），然后再看所需测量的物体的信息（因为信息是消除事件的不确定性的物理量，所以这里即所需测量的事件的不确定性），相当于是多少个该参照物的信息（该参照事件的不确定性）。

二。信息熵具有下面几个性质

1. 我们相信当所有的基本事件机会均等，即都有同样的概率1/n时，其不确定度最大。

对于一般的不确定事件，我们怎样数学地刻画它的不确定程度呢？设想有n个“基本事件”，各自出现的概率分别为p1, p2, …, pn，则它们构成一个样本空间，可以简记为所谓的“概率数组” (p1, p2, …, pn)。样本空间最简单的例子是我们上面提到的抛硬币游戏，它只有两个基本事件：抛硬币结果是“正面朝上”或“反面朝上”，其中每个事件的概率均为 1/2，其对应的样本空间为 (1/2, 1/2)。如果铸币厂别出心裁地将硬币做成两面不对称，使得抛硬币时正面朝上的概率增加到7/10，而反面朝上的概率减少到3/10，则对应的样本空间就是 (7/10, 3/10)。如果我们用符号 H(1/2, 1/2) 来表示第一个样本空间的不确定度，用数 H(7/10, 3/10) 代表第二个样本空间的不确定度，那么直觉马上告诉我们：数 H(1/2, 1/2) 大于数 H(7/10, 3/10)，也就是前者比后者更加不确定。

2. H(1/n,1/n, … 1/n) 是自然数 n 的严格递增函数

很好理解，可能的选择越多，越不确定，即不确定性越大。

3. 如果一个不确定事件分解成几个持续事件，则原先事件的不确定度等于持续事件不确定度的加权和。

4. 对固定的自然数n，不确定度函数 H 是 (p1, p2, …, pn) 的一个连续函数。

香农证明了，满足性质 2，3，4 的函数，应该具有下述表现形式。
H(p1, p2, …, pn)

= -C(p1 ln p1 + p2 ln p2 + … + pn ln pn)，
具体推导过程以后有时间再修改。

这里加一句，熵用来表示存储或者通讯一个（随机）符号所需要的平均比特长度。熵是对于一个特定的随机变量（概率分布）来说的。所以才会考虑，在什么情况下熵的取值最大或者最小。不确定性越大，熵就越大，克服该不确定性所需的信息量就越大；
不确定性越小，熵就越小，克服该不确定性所需的信息量就越小。

三。如何理解 mutual information (平均互信息度) ?

以下内容来自 https://blog.csdn.net/BigData_Mining/article/details/81279612
在此转述一遍。

1. 公式上

公式上，两个离散随机变量 $X$ 和 $Y$ 的互信息定义为：
$\sum_{i,j} p(x_i,y_j)\log\frac{p(x_i,y_j)}{p(x_i)p(y_j)}$
其中， $p(x_i,y_j)$ 是随机变量 $X$ 和 $Y$ 的联合概率分布函数， $p(x_i)$ 是随机变量 $X$ 的概率分布函数, $p(y_j)$ 是随机变量 $Y$ 的概率分布函数。
连续的情形，只需把上面公式的求和改为双重积分就可以。
$\iint_{x,y} p(x,y)\log\frac{p(x,y)}{p(x)p(y)} dxdy$