信息熵总结

最新推荐文章于 2024-09-27 23:47:11 发布

愤怒的卤蛋

最新推荐文章于 2024-09-27 23:47:11 发布

阅读量109

点赞数

文章标签：线性代数

本文链接：https://blog.csdn.net/qq_42823933/article/details/134342387

版权

熵、相对熵与互信息

熵

信息是对不确定性的消除。熵是随机变量不确定度的度量。设 $X$ 是一个离散型随机变量，其字母的取值空间为 $\mathcal{X}$ ，概率密度函数 $\in \mathcal{X}$ 。
一个离散型随机变量 $X$ 的熵 $H (X)$ 定义为
$\sum_{x\in \mathcal{X}} p(x) \log_2 {p(x)}$
也记作 $H (p)$ 。对数的底为2，熵的单位用比特表示。
如果使用底为 $b$ 的对数，则相应的熵记为 $H_b(x)$ 。当对数底为 $e$ 时，熵的单位用奈特nat表示。
$E_pg(x) = \sum_{x\in \chi} g(x)p(x)$
$X$ 的熵又可解释为随机变量 $\log \frac{1}{p(X)}$ 的数学期望，
$H(X)=E_p \log{\frac 1 {p(X)}}$

非负性： $\geq 0$
换底公式： $H_b(X)=(\log_b a)H_a(X)$
可加性/熵的链式法则： $H(X_1,X_2,\cdots,X_n)=\sum_{i=1}^n H(X_i \mid X_{i-1},\cdots,X_1)$
最大离散熵定理
$\leq \log \mid \mathcal X\mid$ ,其中 $\log \mid \mathcal X \mid$ 表示字母表或定义域集合 $\mathcal X$ 中元素的个数，当且仅当X服从 $\mathcal X$ 上的均匀分布，等号成立。
熵的独立界
设 $X_1,X_2,\cdots,X_n$ 服从 $p(x_1,x_2,\cdots,x_n)$ ,则
$H(X_1,X_2,\cdots,X_n) \leq \sum_{i=1}^n H(X_i)$
当且仅当 $X_i$ 相互独立，等号成立

联合熵

对于服从联合分布 $p (x, y)$ 的一对离散随机变量 $(X, Y)$ ,其联合熵 $H (X, Y)$ joint entropy：
$\sum_{x\in \chi} \sum_{y\in Y} p(x,y) \log p(x,y)=-E\log p(X,Y)$

条件熵

若 $\sim p(x,y)$ ,条件熵conditional entropy $\mid X)$ 定义为
$\mid X)= \sum_{x\in \chi}p(x) H(Y\mid X=x) \\= -\sum_{x\in \chi}p(x) \sum_{y\in Y}p(y\mid x)\log p(y \mid x)\\ = - \sum_{x \in \chi} \sum_{y\in Y}p(x,y) \log p(y \mid x) = -E \log p(Y \mid X)$

条件作用使熵减小，信息不会有负面影响： $\mid Y) \leq H(X)$
可加性/链式法则：
$\mid X) \iff \log p(X,Y) = \log p(X) + \log p(y \mid x)$
$\mid Z) = H(X \mid Z) + H(Y \mid X,Z)$

互信息

它是一个随机变量包含另一个随机变量信息量的度量。互信息也是在给定另一随机变量知识的条件下，原随机变量不确定度的缩减量。
$I (X; Y) = H (X) - H (X ∣ Y)$
数学展开表达式
$I(X;Y)=\sum_{x\in \chi} \sum_{y\in \mathcal{Y}}p(x,y) \log \frac{p(x,y)}{p(x)p(y)} \\=E_{p(x,y)}\log\frac{p(X,Y)}{p(X)p(Y)}$

$I(X;Y)=H(Y)-H(Y\mid X)$
$I (X; Y) = H (X) + H (Y) - H (X, Y)$
$I (X; Y) = I (Y; X)$
若 $X$ 和 $Y$ 独立， $I (X; Y) = 0$
若 $X$ 和 $Y$ 一一映射，则 $I (X; Y) = H (X)$
非负性： $\geq 0$ ,了解一个随机变量对于了解另一个随机变量总有一些帮助
极值性： $\leq \min\{H(X),H(Y)\}$ ,两个随机变量的互信息不可能比自身还大
可加性/链式法则： $I(X_1,X_2,\cdots,X_n;Y)=\sum_{i=1}^n I(X_i;Y \mid X_{i-1},\cdots,X_1)$
随机变量与其自身的互信息为该随机变量的熵，所以熵有时候称为自信息self-information， $H (X; X) = H (X)$

条件互信息

随机变量 $X$ 和 $Y$ 在给定随机变量 $Z$ 时的条件互信息conditional mutual information
$\mid Z) = H(X \mid Z) - H(X \mid Y,Z) =E_{p(x,y,z)} \log \frac{p(X,Y \mid Z)}{p(X \mid Z)p(Y \mid Z)}$

相对熵

相对熵时两个随机分布之间距离的度量，又称鉴别信息。相对熵 $\mid \mid q)$ 度量当真实分布为 $p$ 而假定分布为 $p$ 时的无效性。
$\mid\mid q) = \sum_{x\in \chi}p(x) \log\frac{p(x)}{q(x)}= E_p \log \frac{p(X)}{q(X)}$

非负性/信息不等式： $\mid\mid q) \geq 0$
不是严格的距离函数：不满足对称性和三角不等式
$\log \mid \mathcal X \mid - D(p\mid\mid u)$
$D(p(x,y)\mid\mid p(x)p(y))$

条件相对熵

条件相对熵conditional relative entropy： $D(p(y\mid x) \mid\mid q(y\mid x))$ 定义为条件概率密度函数 $p(y\mid x)$ 和 $q(y\mid x)$ 之间的平均相对熵，其中取平均时关于概率密度函数 $p (x)$ 而言的
$D(p(y\mid x) \mid\mid q(y\mid x)) = \sum_x p(x) \sum_y p(y\mid x) \log \frac{p(y\mid x)}{q(y\mid x)}=E_{p(x,y)}\log \frac{p(Y\mid X)}{q(Y\mid X)}$

$D(p(y\mid x)\mid\mid q(y\mid x)) \geq 0$ ,当且仅当对任意y以及满足 $p (x) > 0$ 的 $x$ ,有 $p(y\mid x) = q(y\mid x)$ ,等号成立
$I(X;Y\mid Z) \geq 0$ ,当且仅当对给定随机变量 $Z$ , $X$ 和 $Y$ 是条件独立的，等号成立
可加性/相对熵的链式法则
$\mid\mid q(x,y))=D(p(x)\mid\mid q(x)) + D(p(y\mid x)\mid\mid q(y\mid x))$

凸函数

如果函数总是位于任何一条弦的下面，则该函数是下凸的；如果函数总是位于任何一条弦的上面，则该函数是上凸。

Jensen不等式

若给定下凸函数 $f$ 和一个随机变量 $X$ ,则
$\geq f(EX)$
若 $f$ 是严格下凸的，等号成立 $X = EX$

对数和不等式及其应用

对数和不等式

对于非负数 $a_1,a_2,\cdots,a_n$ 和 $b_1,b_2,\cdots,b_n$ ,
$\sum_{i=1}^n a_i \log \frac{a_i}{b_i} \geq (\sum_{i=1}^n a_i) \log \frac{\sum_{i=1}^n a_i}{\sum_{i=1}^n b_i}$
当且仅当 $\frac{a_i}{b_i}=C$ ,等号成立

相对熵的凸性

$D(p\mid \mid q)$ 关于对 $(p, q)$ 是下凸的，即如果 $p_1,q_1)$ 和 $p_2,q_2)$ 为两对概率密度函数，则对所有的 $\leq \lambda 1$ ,有
$D(\lambda p_1 +(1- \lambda)p_2 \mid\mid \lambda q_1+(1-\lambda)q_2) \leq \lambda D(p_1\mid\mid q_1) + (1-\lambda) D(p_2 \mid\mid q_2)$

熵的凸性

$H (p)$ 是关于 $p$ 的上凸函数

互信息的凹凸性

设 $\sim p(x,y)=p(x)p(y\mid x)$ 。如果固定 $p(y\mid x)$ ,则互信息 $I (X; Y)$ 是关于 $p (x)$ 的上凸函数；而如果固定 $p (x)$ ,则互信息 $I (X; Y)$ 是关于 $p(y\mid x)$ 的下凸函数。

数据处理不等式

数据处理不等式说明，不存在对数据的优良操作能使从数据中所获得的推理得到改善。

马尔可夫链

如果 $Z$ 的条件分布仅依赖于Y的分布，而与X是条件独立的，则称随机变量 $X, Y, Z$ 依序构成马尔可夫链，记为 $\rightarrow Y \rightarrow Z$ 。可构成马尔可夫链的数学定义是
$p(y\mid x) p(z\mid y)$

数据处理不等式

若 $\rightarrow Y \rightarrow Z$ ,则有 $\geq I(X;Z)$

如果 $Z = g (Y)$ ,则 $\geq I(X;g(Y))$ ,即数据Y的函数不会增加X的信息量
如果 $\rightarrow Y \rightarrow Z$ ，则 $\mid Z) \le I(X;Y)$

充分统计量

假定有一族以参数 $\theta$ 指示的概率密度函数 $\{f_\theta(x)\}$ ,设 $X$ 是从其中一个分布抽取的样本。设 $T (X)$ 为任意一个统计量，如样本均值或样本方差，那么 $\theta \rightarrow X \rightarrow T(X)$ ,且由数据处理不等式，对于 $\theta$ 的任何分布，有
$I(\theta;T(X)) \leq I(\theta;X)$
若等号成立，表明无信息损失。
如果 $T (X)$ 包含了 $X$ 所含的关于 $\theta$ 的全部信息，则称该统计量 $T (X)$ 关于 $\theta$ 是充分的。

如果对 $\theta$ 的任何分布，在给定 $T (X)$ 的情况下， $X$ 独立于 $\theta$ ，即 $(\theta \rightarrow T(X) \rightarrow X)$ 构成马尔可夫链，则称函数 $T (X)$ 是关于分布族 $\{f_\theta (x)\}$ 的充分统计量(sufficient statistic)，即 $I(\theta;X)=I(\theta;T(X))$
如果一个充分统计量 $T (X)$ 是其他所有充分统计量 $U$ 的函数，则称 $T (X)$ 是关于 $\{f_\theta (x)\}$ 的最小充分统计量(minimal sufficient statistic),即 $\theta \rightarrow T(X) \rightarrow U(X) \rightarrow X$

费诺不等式

假定知道随机变量 $Y$ ，想进一步推测与之相关的随机变量 $X$ 的值。费诺不等式将推测随机变量X的误差概率与它的条件熵 $\mid Y)$ 联系到一起。
对任何满足 $\rightarrow Y \rightarrow \hat{X}$ 的估计量 $\hat X$ ,设 $P_e=\Pr \{X \neq \hat X\}$ ,有
$H(P_e) + P_e \log \mid \mathcal X \mid \geq H(X \mid \hat X) \geq H(X \mid Y)$

对任意两个随机变量 $X$ 和 $Y$ ,设 $p=\Pr(X \neq Y)$ , $H(p)+p\log \mid \mathcal X \mid \geq H(X \mid Y)$
设 $P_e = \Pr (X \neq \hat X),\hat X:\mathcal Y \rightarrow \mathcal X$ ,则 $H(P_e)+P_e \log(\mid \mathcal X \mid -1) \geq H(X\mid Y)$
如果 $X$ 和 $X^{'}$ 独立同分布，具有熵 $H (X)$ ,则 $\Pr(X = X') \geq 2^{-H(X)}$ ,仅当 $X$ 服从均匀分布，等号成立

渐进均分性

渐进均分性定理

若 $X_1,X_2,\cdots ,X_n$ 为 $\sim p(x)$ ,则
$-\frac 1 n \log p(X_1,X_2,\cdots,X_n) \rightarrow H(X) \tag{AEP}$
关于 $p (X)$ 的典型集 $A_{\varepsilon}^{(n)}$ 是序列 $(x_1,x_2,\cdots,x_n) \in \mathcal X^n$ 的集合，且满足性质
$2^{-n(H(X)+\varepsilon)} \leq p(x_1,x_2,\cdots,x_n) \leq 2^{-n(H(X)-\varepsilon)}$
可以证明典型集 $A^{(n)}_\varepsilon$ 有如下性质：

如果 $(x_1,x_2,\cdots,x_n) \in A_\varepsilon^{(n)}$ ,则 $H(X)-\varepsilon \leq -\frac 1n \log p(x_1,x_2,\cdots,x_n) \leq H(X) + \varepsilon$
当 $n$ 充分大时， $\Pr \{A_\varepsilon ^{(n)}\} > 1- \varepsilon$
$\mid A_\varepsilon^{(n)} \mid \leq 2^{n(H(X)+\varepsilon)}$
当 $n$ 充分大时， $\mid A_\varepsilon^{(n)}\mid \geq (1-\varepsilon)2^{n(H(X)-\varepsilon)}$

由此可知，典型集的概率近似为1，典型集中的所有元素几乎是等可能的，且典型集的元素个数近似等于 $2^{nH}$

AEP的推论：数据压缩

设 $X^n$ 为服从 $p (x)$ 的 $i . i . d$ 序列， $\varepsilon>0$ ,则存在一个编码将长度为n的序列 $x^n$ 映射为比特串，使得映射是 $1 - 1$ 的，且对于充分大的 $n$ ,有
$E[\frac 1 n l(X^n)] \leq H(X) + \varepsilon \tag{香农第一定理}$
因而在平均意义上，用 $n H (X)$ 比特科表示序列 $X^n$ 。该定理又称信源无失真定长编码定理

高概率集与典型集

设 $X_1,X_2,\cdots ,X_n$ 为 $\sim p(x)$ 。对 $\delta < \frac 12$ ，设 $B_\delta^{(n) } \subset \mathcal X^n$ 为使 $\Pr \{B_\delta^{(n) }\} \geq 1 - \delta$ 成立的最小集合,则
$\mid B_\delta^{(n)} \mid = 2^{nH}$

随机过程的熵率

TODO

数据压缩

编码的概念

信源编码

关于随机变量 $X$ 的信源编码 $C$ 是从 $X$ 的取值空间 $\mathcal X$ 到 $\mathcal D ^*$ 的一个映射，其中 $\mathcal D ^*$ 表示 $D$ 元字母表 $\mathcal D$ 上有限长度的字符串所构成的集合。用 $C (x)$ 表示 $x$ 的码字并用 $l (x)$ 表示 $C (x)$ 的长度。

期望长度

设随机变量 $X$ 的概率密度函数为 $p (x)$ , $l (x)$ 为对应于 $x$ 的码字长度，定义信源编码 $C (x)$ 的期望长度 $L (C)$ 为
$L(C)=\sum_{x \in \mathcal X} p(x)l(x)$

非奇异编码

如果编码将 $X$ 的取值空间中的每个元素映射称 $\mathcal D ^*$ 中的不同字符串，即
$\neq x' \Rightarrow C(x) \neq C(x')$
则称这个编码是非奇异的

扩展编码

编码 $C$ 的扩展 $C^*$ 是从 $\mathcal X$ 上的有限长字符串到 $\mathcal D$ 上的有限长字符串的映射，定义为
$C(x_1 x_2 \cdots x_n) = C(x_1)C(x_2)\cdots C(x_n)$
其中 $C(x_1)C(x_2)\cdots C(x_n)$ 表示相应码字的串联。

唯一可译编码

如果一个编码的扩展编码是非奇异的，则称该编码是唯一可译的。

前缀码

若码中无任何码字是其他码字的前缀，则称该编码为前缀码或即时码。

Kraft不等式

对于 $D$ 元字母表上的即时码（前缀码），码字长度 $l_1,l_2,\cdots,l_m$ 必须满足不等式

$\sum_{i} D^{-l_i} \leq 1 \tag{Kraft不等式}$

反之，若给定满足以上不等式的一组码字长度，则存在一个相应的即时码，其码字长度就是给定的长度。

对任何构成前缀码的可数无限码字集，码字长度也满足推广的 $Kr a f t$ 不等式

$\sum_{i=1}^\infty D^{-l_i} \leq 1 \tag{推广的Kraft不等式}$

反之，若给定满足推广的Kraft不等式的 $l_1,l_2,\cdots,$ 则可构造出具有相应码字长度的前缀码。

最优码

随机变量 $X$ 的任一 $D$ 元即时码的期望长度必定大于或等于熵 $H_D(X)$ ,即
$\geq H_D(X)$
当且仅当 $D^{-l_i}=p_i$ ，等号成立。

对于某个 $n$ ,如果概率分布的每一个概率值均等于 $D^{-n}$ ，则称这个概率分布是 $D$ 进制的D-adic。因此，当且仅当 $X$ 的分布式 $D$ 进制的，上述等号成立。

最优码长的界

设 $l_1^*,l_2^*,\cdots,l_m^*$ 是关于信源分布 $\pmb p$ 和一个 $D$ 元字母表的一组最优码长， $L^*$ 为最优码的相应期望长度 $(L^*=\sum p_il_i^*)$ ，则
$H_D(X) \leq L^* \leq H_D(X)+1$
每字符最小期望码字长满足
$\frac {H(X_1,X_2,\cdots,X_n)}{n} \leq L_n^* <\frac{H(X_1,X_2,\cdots,X_n)}{n} +\frac 1n \tag{分组前缀码}$
进一步，若 $X_1,X_2,\cdots,X_n$ 是平稳随机过程则
$L_n^* \rightarrow H(\mathcal X)$
其中 $H(\mathcal X)$ 为随机过程的熵率。
（偏码wrong code）码字长度分配 $\lceil \log \frac 1{q(x)} \rceil$ （香农码）关于 $p (x)$ 的期望码长满足
$\mid\mid q) \leq E_pl(X) < H(p) + D(p\mid\mid q) +1$
于是，若真实分布为 $p (x)$ ，而编码使用的是非真实分布 $q (x)$ ，则会导致期望描述长度增加 $\mid \mid q)$ 。

唯一可译码的Kraft不等式

任意唯一可以的D元码的码字长度必然满足Kraft不等式
$\sum D^{-l_i} \leq 1 \tag{McMillan}$
反之，若给定满足上述不等式的一组码字长度，则可以构造出具有同样码字长度的唯一可译码。

推论：无限信源字母表 $\mathcal X$ 的唯一可译码亦满足Kraft不等式。

这个定理说明：从码字长度集的角度考虑，唯一可译码类不能提供比前缀码类更优的选择。对唯一可译码与即时码而言，码字长度集是一样的。因而，当将允许的编码扩展到唯一可译码类的范畴，关于最优码字长度的界也是成立的。

霍夫曼编码

霍夫曼编码是最优前缀编码

信道容量

离散信道discret channel是由输入字母表 $\mathcal X$ ,输出字母表 $\mathcal Y$ 和概率转移矩阵 $\mid x)$ 构成的系统，其中 $p(y\mid x)$ 表示发送字符 $x$ 的条件下收到字符 $y$ 的概率。如果输出的概率分布仅依赖于他所对应的输入，而与先前信道的输入或者输出条件独立，就称这个信道是无记忆的memoryless。
离散无记忆信道的"信息"信道容量channnel capacity定义为
$C = \max_{p(x)} I(X;Y)$
这里的最大值取自所有可能的输入分布 $p (x)$

信道的例子

无噪声二元信道
无重叠输出的有噪声信道
有噪声的打字机信道
二元对称信道
二元擦除信道

对称信道

如果信道转移矩阵 $p(y\mid x)$ 的任何两行互相置换；任何两列也互相置换，那么称该信道是对称的。如果转移矩阵的每一行 $p(\cdot \mid x)$ 都是其他每行的置换，而所有列的元素和 $\sum_x p(y\mid x)$ 相等，则称这个信道是弱对称的。
对于弱对称，包括对称信道，
$\log \mid \mathcal Y \mid - H(转移矩阵的行)$
当输入字母表上的分布为均匀时达到该容量。

信道容量的性质

$\geq 0$
$\max I(X;Y) \leq \max H(X) \leq \log \mid \mathcal X\mid$
$\leq \log \mid \mathcal Y \mid$
$C = I (X; Y)$ 是关于 $p (x)$ 的连续函数
$C = I (X; Y)$ 是关于 $p (x)$ 的上凸函数

一些定义

用 $(\mathcal X,p(y\mid x),\mathcal Y)$ 表示的离散信道由两个有限集 $\mathcal X$ 和 $\mathcal Y$ 以及一簇概率密度函数 $\mid x)(x\in \mathcal X)$ 构成，其中对任意 $x$ 与 $y$ ，有 $p(y\mid x) \geq 0$ ,以及对任意的 $x$ ,有 $\sum_x p(y\mid x)=1$ ,而 $X$ 和 $Y$ 分别看作信道的输入和输出。
离散无记忆信道DMC的 $n$ 次扩展是指信道 $(\mathcal X^n,p(y^n\mid x^n),\mathcal Y^n)$ ,其中
$p(y_k\mid x^k,y^{k-1}) = p(y_k \mid x_k),k=1,2,\cdots,n$
信道 $(\mathcal X,p(y\mid x),\mathcal Y)$ 的 $(M, n)$ 码由以下几部分构成
1. 下标集 $\{1,2,\cdots,M\}$
2. 编码函数 $X^n:\{1,2,\cdots,M\} \rightarrow \mathcal X^n$ ,生成码字 $x^n(1),x^n(2),\cdots,x^n(M)$ 。所有码字的集合称为码簿codebook
3. 译码函数
  $g:\mathcal Y^n \rightarrow \{1,2,\cdots,M\}$
  它是一个确定性规则，为每个收到的字符向量指定一个猜测。
条件误差概率，设
$\lambda_i = \Pr(g(Y^n) \neq i \mid X^n = x^n(i)) = \sum_{y^n} p(y^n\mid x^n(i))I(g(y^n) \neq i)$
为已知下标 $i$ 被发送的条件下的条件误差概率conditional probability of error,其中 $I(\cdot)$ 为示性函数。
$(M, n)$ 码的最大误差概率 $\lambda^{(n)}$ maximum probability of error定义为
$\lambda^{(n)} = \max_{i \in (1,2,\cdots,M)} \lambda_i$
$(M, n)$ 码的平均误差概率 $P_e^{(n)}$ average probability of error定义为
$P_e^{(n)} = \frac 1M \sum_{i=1}^M \lambda_i$
注意，如果原消息 $W$ 是从集合 $\{1,2,\cdots,M\}$ 中的均匀分布中选出的，以及 $X^n=x^n(W)$ ,则
$P_e^{(n)} = \Pr(W \neq g(Y^n)) \leq \lambda^{(n)}$
$(M, n)$ 码的码率 $R$ rate为
$\frac {\log M} {n} （比特/传输）$
如果存在一个 $(\lceil 2^{nR} \rceil,n)$ 码序列，满足当$n \rightarrow 0 $时，最大误差概率$ \lambda^{(n)} \rightarrow 0 $, 则称码率$ R$是可达的
信道的容量定义为所有可达码率的上确界

联合典型序列

服从分布 $p (x, y)$ 的联合典型序列 ${\{x^n,y^n\}\}$ 所构成的集合 $A_\varepsilon^{(n)}$ 是满足下列条件的集合
$\begin{aligned} A_\varepsilon^{(n)} = & \{(x^n,y^n)\in \mathcal X^n \times \mathcal Y^n: \\& \mid -\frac1n \log p(x^n) - H(X) \mid < \varepsilon \\& \mid -\frac1n \log p(y^n) - H(Y) \mid < \varepsilon \\& \mid -\frac1n \log p(x^n,y^n) - H(X,Y) \mid < \varepsilon \} \end{aligned}$
其中
$p(x^n,y^n) = \prod_{i=1}^n p (x_i,y_i)$
(联合AEP)设 $X^n,Y^n)$ 为服从 $p(x^n,y^n)=\prod_{i=1}^np(x_i,y_i)$ 的 $i . i . d$ 的 $n$ 长序列，则满足：

当 $\rightarrow \infty$ 时， $\Pr((X^n,Y^n) \in A_\varepsilon^{(n)}) \rightarrow 1$
$\mid A_\varepsilon^{(n)} \mid \leq 2^{n(H(X,Y)+\varepsilon)}$
如果 $(\tilde X^n,\tilde Y^n) \sim p(x^n)p(y^n)$ ,即 $\tilde X^n$ 与 $\tilde Y^n$ 是独立的且与 $p(x^n,y^n)$ 有相同的边缘分布，那么
$\Pr((\tilde X^n,\tilde Y^n)\in A_\varepsilon^{(n)}) \leq 2^{-n(I(X;Y)-3\varepsilon)}$
而且对于充分大的 $n$ ，
$\Pr((\tilde X^n,\tilde Y^n)\in A_\varepsilon^{(n)}) \geq (1-\varepsilon)2^{-n(I(X;Y)+3\varepsilon)}$

信道编码定理

对于离散无记忆信道，小于信道容量 $C$ 的所有码率都是可达的。具体来说，对任意码率 $R < C$ ,存在一个 $2^{nR},n)$ 码序列，它的最大误差概率为 $\lambda^{(n)} \rightarrow 0$
反之，任何满足 $\lambda^{(n)} \rightarrow 0$ 的 $2^{nR},n)$ 码序列必有 $\leq C$ 。
这一定理又被称为香农第二定理

反馈容量

对于离散无记忆信道，反馈并不能增加信道容量，即 $C_{FB}=C$

信源信道定理

如果随机过程的熵 $H > C$ ,则该过程不能通过离散无记忆信道被可靠的传输。相反，如果随机过程满足AEP,且 $H < C$ ,则信源可以被可靠的传输。

微分熵

$\begin{aligned} &h(X) = h(f) = -\int_S f(x) \log f(x)dx\\ &f(X^n)=2^{-nh(X)}\\ &Vol(A_\varepsilon^{(n)}) = 2^{nh(X)}\\ &h(\mathcal N(0,\sigma^2)) = \frac12 \log 2\pi e \sigma^2\\ &h(\mathcal N_n(\mu,K)) = \frac 12 \log (2\pi e)^n\mid K \mid\\ &D(f\mid\mid g) = \int f\log \frac fig \geq 0\\ &h(X_1,X_2,\cdots,X_n)= \sum_{i=1}^n h(X_i\mid X_1,X_2,\cdots,X_{i-1})\\ &h(X\mid Y) \leq h(X)\\ &h(aX) = h(X) + \log \mid a\mid\\ &I(X;Y)=\int f(x,y) \log \frac {f(x,y)}{f(x)f(y)} \geq 0\\ &\max_{E\pmb X\pmb X'=\pmb K}h(\pmb X) = \frac12 \log (2\pi e)^n \mid K \mid\\ &E(X-\hat{X}(Y))^2 \geq \frac1{2\pi e} e^{2h(X \mid Y)} \end{aligned}$

$2^{nH(X)}$ 是一个离散随机变量的有效字母表的大小
$2^{nh(X)}$ 是一个连续随机变量的有效支撑集的大小
$2^C$ 是一个容量为 $C$ 的信道的有效字母表的大小

高斯信道

最大熵
$\max_{EX^2=\alpha} = \frac 12 \log 2\pi e \alpha$
高斯信道
$Y_i = X_i+Z_i,Z_i \sim \mathcal N(0,N)$ ，且满足功率限制 $\frac 1n \sum_{i=1}^n x_i^2 \leq P$ ,
$\frac 12 \log (1+\frac PN) \tag{比特/传输}$
带宽有限的可加高斯白噪声信道
带宽为 $W$ ,双边功率谱密度为 $N_0/2$ ,信号功率为 $P$ ,
$W\log (1+\frac P{N_0W}) \tag{比特/秒}$
$k$ 级并联高斯信道
$Y_j=X_j+Z_j,j=1,2,\cdots,k,Z_j \sim \mathcal N(0,N_j),\sum_{j=1}^kX_j^2 \leq P,$
$\sum_{i=1}^k \frac 12 \log(1+\frac{(v-N_i)^+}{N_i})$
其中对 $v$ 的选取满足 $\sum(v-N_i)^+=nP$
可加高斯非白噪声信道
$Y_i=X_i+Z_i,Z^n\sim \mathcal N(0,K_Z)$
$=\frac 1n \sum_{i=1}^n \frac 12 \log (1+\frac {(v-\lambda_i)^+}{\lambda_i})$
其中 $\lambda_1,\lambda_2,\cdots,\lambda_n)$ 是 $K_Z$ 的特征值，且对 $v$ 的选取满足 $\sum_{i}(v-\lambda_i)^+=P$
不带反馈容量
$C_n = \max_{tr(K_X)\leq nP} \frac1{2n} \log \frac{\mid K_X+K_Z\mid}{\mid K_Z \mid}$
带反馈容量
$C_{n,FB} = \max_{tr(K_X)\leq nP} \frac 1{2n} \log \frac{\mid K_{X+Z}}{\mid K_Z \mid}$
反馈界
$C_{n,FB} \leq C_n +\frac12$
$C_{n,FB} \leq 2C_n$

率失真理论

量化

设 $X$ 是表示的随机变量，记 $X$ 的表示为 $\hat X(X)$ 。如果使用 $R$ 比特表示 $X$ ,则函数 $\hat X$ 可以有 $2^R$ 个取值。要寻找 $\hat X$ 的最优取值（称作再生点或码点）集合以及每个曲直所对应的原像区域。

定义

失真函数distortion function或者失真度量distortion measure指从信源字母表与再生字母表的乘积空间到非负实数集上的映射 $d:\mathcal X \times \hat{\mathcal X} \rightarrow \mathcal R^+$ 。失真 $d(x,\hat x)$ 是用来刻画使用 $\hat x$ 表示 $x$ 时的代价度量。
称失真度量是有界的，如果失真的最大值有限
$d_{max} = \max_{x\in \mathcal X,\hat x \in \hat{\mathcal X}} d(x,\hat x) \leq \infty$
在大多数情况下，再生字母表 $\hat{\mathcal X}$ 和信源字母表 $\mathcal X$ 是相同的
常用的失真函数的例子
- 汉明失真
  $d(x,\hat x)= \begin{cases} 0 &x = \hat x\\ 1 & x \neq \hat x \end{cases}$
- 平方误差失真
  $d(x,\hat x) = (x-\hat x)^2$
- 语音编码中的 $I t ak u r a - S ai t o$ 距离
$x^n$ 与 $\hat x^n$ 序列间的失真定义为
$d(x^n,\hat x^n) = \frac 1n \sum_{i=1}^n d(x_i,\hat x_i)$
一个 $2^{nR},n)$ 率失真码rate distortion code包括
- 一个编码函数 $f_n:\mathcal X^n \rightarrow \{1,2,\cdots,2^{nR}\}$
- 一个译码(再生)函数 $g_n:\{1,2,\cdots,2^{nR}\} \rightarrow \mathcal X^n$
- 关于这个 $2^{nR},n)$ 码的失真定义为 $D=Ed(X^n,g_n(f_n(X^n)))$ ,其中所取的期望是针对 $X$ 的概率分布而言的
  $\sum_{x^n} p(x^n)d(x^n,g_n(f_n(X^n)))$
- 将 $n$ 元组 $g_n(1),g_n(2),\cdots,g_n(2^{nR})$ 记为 $\hat X^n(1),\hat X^n(2),\cdots,\hat X^n(2^{nR})$ ，它构成一个码簿
- $f^{-1}(1),f^{-1}(2),\cdots,f^{-1}(2^{nR})$ 为相应的分配区域
称率失真对 $(R, D)$ 是可达的，若存在一个 $2^{nR},n)$ 率失真码序列 $f_n,g_n)$ ,满足 $\lim_{n\rightarrow \infty}Ed(X^n,g_n(f_n(X^n))) \leq D$
全体可达率失真对 $(R, D)$ 所构成的集合闭包称为信源的率失真区域。
对于给定的失真 $D$ ，满足 $(R, D)$ 包含于信源的率失真区域中的所有码率 $R$ 的下确界称为率失真函数 $R (D)$
对于给定的码率 $R$ ，满足 $(R, D)$ 包含于信源的率失真区域中的所有失真 $D$ 的下确界称为失真率函数 $D (R)$
设信源 $X$ 的失真度量为 $d(x,\hat x)$ ，定义其信息率失真函数 $R^{(I)}(D)$ 为
$R^{(I)}(D) = \max_{p(\hat x\mid x):\sum_{(x,\hat x)}p(x)p(\hat x \mid x)d(x,\hat x) \leq D} I(X;\hat X)$
对于独立同分布的信源 $X$ ,若公共分布为 $p (x)$ 且失真函数 $d(x,\hat x)$ 有界，那么其率失真函数与对应的信息率失真函数相等。于是
$R^{(I)}(D) = \max_{p(\hat x\mid x):\sum_{(x,\hat x)}p(x)p(\hat x \mid x)d(x,\hat x) \leq D} I(X;\hat X)$
为在失真 $D$ 下的最小可达码率

伯努利信源

在汉明失真度量意义下，对于伯努利信源，有
$R (D) = H (p) - H (D)$

高斯信源

在失真度量是平方误差误差的意义下，对于高斯信源，有
$\frac 12 \log \frac{\sigma^2}{D}$

率失真定理/香农第三定理

如果 $R > R (D)$ ,则存在码字数目为 $\mid \hat X^n(\cdot)\mid \leq 2^{nR}$ 的码序列 $\hat X^n(X^n)$ ,使 $Ed(X^n,\hat X^n(X^n)) \rightarrow D$ 。若 $R < R (D)$ ,则这样的码序列不存在。

信源信道分离性

率失真为 $R (D)$ 的信源能够在信道容量为 $C$ 的信道中传输并且失真为 $D$ ,当且仅当 $R (D) < C$ 。

信息论与统计学

TODO

最大熵

More need TODO

最大熵分布定理

设 $f$ 为概率密度函数且满足如下约束条件
$\int_S f(x)r_i(x) =\alpha_i(1 \leq i \leq m)$
令 $f^*(x) = f_\lambda(x) = e^{\lambda_0+\sum_{i=1}^m \lambda_ir_i(x)},x \in S$ ,再选择 $\lambda_0,\lambda_1,\cdots,\lambda_m$ 使得 $f^*$ 满足上式，那么，在所有这些满足约束条件的密度函数 $f$ 中， $f^*$ 是唯一使得 $h (f)$ 达到最大值的分布函数。

最小鉴别信息定理

某随机变量 $X$ ,概率分布 $q (x)$ 未知，已知其先验概率密度 $p (x)$ 及若干函数的期望
$\int_S q(x) f_m(x) dx = C_m,m=1,2,\cdots,M$
求在上述条件下对 $q (x)$ 的最佳估计，等价于取先验分布与目标分布之间的鉴别信息作为目标函数
$\mid\mid q) = \int_s q(x) \log \frac {q(x)}{p(x)}dx$
在上述约束条件下的解。