信息论基础第二章阅读笔记

Chen_Chance

已于 2023-10-05 14:55:05 修改

阅读量876

点赞数

分类专栏：信息论文章标签：笔记机器学习人工智能

于 2023-09-26 18:53:49 首次发布

本文链接：https://blog.csdn.net/qq_44154915/article/details/133318123

版权

信息论专栏收录该内容

6 篇文章

订阅专栏

本文围绕信息论中熵、相对熵与互信息展开。介绍了熵衡量随机变量不确定性，相对熵衡量两概率分布差异，互信息衡量两随机变量关联性。还阐述了它们之间的关系、链式法则，以及 Jensen 不等式、数据处理不等式等，同时涉及充分统计量和费诺不等式等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

信息很难用一个简单的定义准确把握。
对于任何一个概率分布，可以定义一个熵（entropy）的量，它具有许多特性符合度量信息的直观要求。这个概念可以推广到互信息（mutual information），互信息是一种测度，用来度量一个随机变量包含另一个随机变量的信息量。熵恰好变成一个随机变量的自信息。相对熵（relative entropy）是个更广泛的量，它是刻画两个概率分布之间的距离的一种度量，而互信息又是它的特殊情形。

相对熵（也叫做KL散度）、互信息和熵都是信息理论中的重要概念，它们之间有一定的关系，我会尽量用通俗易懂的方式解释它们之间的关系。

熵（Entropy）：想象一堆信息，如果这些信息非常混乱和不可预测，那么熵就高。相反，如果信息有序和高度可预测，熵就低。熵用来衡量一个随机变量的不确定性。在信息理论中，熵通常用H表示，表示一个随机事件中信息的平均不确定性。如果一个事件的概率分布是均匀的，那么熵最高；如果概率分布是确定的，熵为零。
相对熵（Kullback-Leibler Divergence，KL散度）：相对熵用来衡量两个概率分布之间的差异。具体来说，如果我们有两个概率分布P和Q，相对熵D(P || Q)用来表示当我们使用Q来近似描述P时所带来的信息损失。如果P和Q完全相同，相对熵为零，表示没有信息损失。但如果它们不同，相对熵就会大于零，表示用Q来近似P会引入一些误差。
互信息（Mutual Information）：互信息用来衡量两个随机变量之间的关联性。如果我们有两个随机变量X和Y，它们的互信息I(X; Y)表示知道了一个变量的值后，对另一个变量的不确定性的减少程度。互信息越大，表示X和Y之间的关联性越强。如果X和Y是完全独立的，互信息为零，表示它们之间没有关联。

现在来解释它们之间的关系：

相对熵可以用来衡量两个概率分布的差异，它可以用来衡量一个概率分布Q对另一个分布P的逼近程度。
互信息可以用来衡量两个随机变量之间的关联性，它可以看作是一个随机变量X和Y的联合分布与它们各自的分布之间的相对熵之和减去它们的联合分布的相对熵。具体而言， $I (X; Y) = D (P (X, Y) ∣∣ P (X) P (Y))$ 。

总之，这些概念在信息论和统计学中有广泛的应用，用来量化信息、概率分布之间的关系以及随机变量之间的关联性。相对熵和互信息都是用来衡量信息的不同方面，而熵则是其中一个基础概念，用来衡量不确定性。

当谈到相对熵（KL散度）、互信息和熵时，以下是它们的公式表示：

熵（Entropy）：熵用H表示，对于一个随机变量X，它的熵H(X)可以表示为：
$-\sum_{x} P(x) \log P(x)$
这里，P(x)是随机变量X取某个值x的概率，\log表示自然对数。
相对熵（Kullback-Leibler Divergence，KL散度）：对于两个概率分布P和Q，它们之间的相对熵D(P || Q)可以表示为：
$\sum_{x} P(x) \log\left(\frac{P(x)}{Q(x)}\right)$
这个公式用来衡量P和Q之间的差异。
互信息（Mutual Information）：对于两个随机变量X和Y，它们的互信息I(X; Y)可以表示为：
$\sum_{x, y} P(x, y) \log\left(\frac{P(x, y)}{P(x)P(y)}\right)$
这个公式用来衡量X和Y之间的关联性。

需要注意的是，相对熵和互信息的公式都包括对概率分布的取值进行求和，而熵的公式只涉及一个随机变量的概率分布。这些公式在信息理论和统计学中有广泛的应用，用来量化信息、概率分布之间的关系以及随机变量之间的关联性。

2.1 熵

熵是随机变量不确定度的度量。
设X是一个离散型随机变量，其字母表（即概率论中的取值空间）为 $\chi$ ，概率密度函数 $\in \chi$ 。为方便起见，记概率密度函数为 $p (x)$ 以代替 $p_X(x)$ ，由此， $p (x)$ 和 $p (y)$ 指两个不同的随机变量，实际上分别表示两个不同的概率密度函数 $p_X(x)$ 和 $p_Y(y)$ 。
在这里插入图片描述
注意，熵实际上是随机变量X的分布的泛函数，并不依赖于X的实际取值，而仅依赖于其概率分布。
用E表示数学期望。如果X~p(x)，则随机变量g(X)的期望值可记为
$E_pg(X)=\sum\limits_{x\in \chi}g(x)p(x)$
或者当概率密度函数可由上下文确定时，简记为 $E_g(X)$ 。我们将特别关注，当 $g(X)=log\frac{1}{P(X)}$ 时， $g (X)$ 关于分布 $p (x)$ 的怪异的自指涉数学期望。
在这里插入图片描述
首先我们来看看熵这个定义的一些直接结果：
引理2.1.1 $H (X) \geq 0$
引理2.1.2 $H_b(X)=(log_ba)H_a(X)$

这个式子是用来表示随机变量X的熵在不同底数下的对数之间的关系，其中 $a$ 和 $b$ 是两个不同的底数。

$H_a(X)$ 表示以底数 $a$ 计算的随机变量X的熵。通常，我们使用自然对数（底数为e）或以2为底的对数来计算熵，所以 $a$ 可以是e或2，分别表示自然熵和比特熵。
$H_b(X)$ 表示以底数 $b$ 计算的随机变量X的熵。

式子的右边部分 “ $log_ba)H_a(X)$ ” 是在 $a$ 底数下计算的熵 $H_a(X)$ 乘以一个对数的换底公式。这个公式告诉我们，如果你已经知道了某个随机变量X的熵在 $a$ 底数下的值，你可以通过将它乘以底数为 $a$ 到底数为 $b$ 的对数之比（即 $log_ba$ ）来获得在 $b$ 底数下的熵。
这个关系在信息论和数学中有一定的应用，特别是在熵的换底和比较方面。例如，在信息论中，经常使用自然对数的底数来计算熵，因为这与信息论的基本单位（纳特）相关。但在某些情况下，可能需要在不同的底数下表示熵，这个式子可以用来进行转换。
总之，这个式子表示了随机变量X的熵在不同底数下的对数之间的关系，通过一个对数的换底公式来连接它们。

2.2联合熵与条件熵

在2.1节中定义了单个随机变量的熵，现在，将定义推广到两个随机变量的情形。
定义：对于服从联合分布为p(x,y)的一对离散随机变量(X,Y)，其联合熵H(X,Y)定义为
$H(X,Y)=-\sum\limits_{x \in \chi} \sum\limits_{y \in Y}p(x,y)logp(x,y)$
上式亦可表示为
$H (X, Y) = - El o g p (X, Y)$
在这里插入图片描述
定理2.2.1(链式法则)
$H (X, Y) = H (X) + H (Y ∣ X)$
推论
$H (X, Y ∣ Z) = H (X ∣ Z) + H (Y ∣ X, Z)$

这个等式是条件熵（Conditional Entropy）的一个基本性质，用来表示随机变量X和Y关于给定条件随机变量Z的条件熵之和等于它们分别关于Z的条件熵的和。
让我解释这个等式的各个部分：

$H (X, Y ∣ Z)$ 表示在给定随机变量Z的条件下，随机变量X和Y的联合条件熵。它表示在已知Z的情况下，X和Y的联合不确定性或信息量。
$H (X ∣ Z)$ 表示在给定随机变量Z的条件下，随机变量X的条件熵。它表示在已知Z的情况下，X的不确定性或信息量。
$H (Y ∣ X, Z)$ 表示在给定随机变量X和Z的条件下，随机变量Y的条件熵。它表示在已知X和Z的情况下，Y的不确定性或信息量。

等式的含义是，当我们想要计算在给定Z的条件下X和Y的联合不确定性时，我们可以将问题拆分为两个步骤：

首先，我们计算在给定Z的条件下X的条件不确定性，即 $H (X ∣ Z)$ 。
然后，我们计算在给定Z和X的条件下Y的条件不确定性，即 $H (Y ∣ X, Z)$ 。

等式右边的两项分别代表了这两个步骤。所以，等式的右边表示了一个逐步计算联合条件熵的方法。这个性质对于信息论和概率统计中的条件熵计算非常有用，因为它将复杂的问题拆分为更简单的部分。
总结起来，等式 $H (X, Y ∣ Z) = H (X ∣ Z) + H (Y ∣ X, Z)$ 表示在给定条件随机变量Z的情况下，随机变量X和Y的联合条件熵等于X在Z条件下的条件熵与Y在给定X和Z条件下的条件熵之和。这个等式是条件熵的一个基本性质，有助于分析信息流和信息传递的问题。

例2.2.1
在这里插入图片描述

2.3相对熵与互信息

熵是随机变量不确定度的度量；它也是平均意义上描述随机变量所需的信息量的度量。本节介绍两个相关概念：相对熵和互信息。

相对熵是两个随机分布之间距离的度量。在统计学中，它对应的是似然比的对数期望值。相对熵 $D (p ∣∣ q)$ 度量当真实分布为p而假定分布为q时的无效性。例如，已知随机变量的真实分布为p，可以构造平均描述长度为 $H (p)$ 的码。但是，如果使用针对分布q的编码，那么在平均意义上就需要 $H (p) + D (p ∣∣ q)$ 比特来描述这个随机变量。

似然比（Likelihood Ratio）的对数期望通常指的是似然比的期望值的自然对数。这是在统计学和信息论中经常出现的概念。
首先，让我们解释似然比和对数似然比的概念：

似然比（Likelihood Ratio）：似然比是用于比较两个不同的假设或模型的相对支持度的度量。它通常用于统计假设检验或模型选择。似然比的定义如下：
假设我们有两个假设或模型，一个是H0，另一个是H1。似然比(LR)就是在给定观测数据的情况下，H1相对于H0的似然函数的比值。它表示了数据在H1下相对于H0的支持程度。
$L R = L (d a t a ∣ H 1) / L (d a t a ∣ H 0)$
其中， $L (d a t a ∣ H 1)$ 是在H1下观测数据的似然函数， $L (d a t a ∣ H 0)$ 是在H0下观测数据的似然函数。
对数似然比（Log-Likelihood Ratio）：为了进行数学上的方便和计算，通常会取似然比的对数，即对数似然比。
$L o g (L R) = l o g (L (d a t a ∣ H 1)) - l o g (L (d a t a ∣ H 0))$

现在，"似然比的对数期望"指的是计算似然比的期望值，然后取这个期望值的自然对数。这通常用于分析统计模型或假设检验中的信息理论性质。

定义：两个概率密度函数为p(x)和q(x)之间的相对熵或Kullback-Leibler距离定义为
$D(p||q)=\sum\limits_{x\in\chi}p(x)log\frac{p(x)}{q(x)}=E_plog\frac{p(X)}{q(X)}$

互信息是一个随机变量包含另一个随机变量信息量的度量。互信息也是在给定另一随机变量知识的条件下，原随机变量不确定度的缩减量。

定义：考虑两个随机变量X和Y，它们的联合概率密度函数为p(x,y)，其边际概率密度函数分别是p(x)和p(y)。互信息I(X;Y)为联合分布p(x,y)和乘积分布p(x)p(y)之间的相对熵
$I(X;Y)=\sum\limits_{x\in\chi}\sum\limits_{y \in Y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}=D(p(x,y)||p(x)p(y))=E_{p(x,y)}log\frac{p(X,Y)}{p(X)p(Y)}$

例2.3.1
在这里插入图片描述

2.4熵与互信息的关系

可将互信息I(X;Y)重写为：
$I (X; Y) = H (X) - H (X ∣ Y)$
由此，互信息I(X;Y)是在给定Y知识的条件下X的不确定度的缩减量
对称地，亦可得到：
$I (X; Y) = H (Y) - H (Y ∣ X)$
因此，X含有Y的信息量等同于Y含有X的信息量
由2.2节的 $H (X, Y) = H (X) + H (Y ∣ X)$ ，可得
$I (X; Y) = H (X) + H (Y) - H (X, Y)$
最后，注意到
$I (X; X) = H (X) - H (X ∣ X) = H (X)$
因此，随机变量与自身的互信息为该随机变量的熵。有时，熵称为自信息，就是这个原因。
在这里插入图片描述

2.5熵、相对熵与互信息的链式法则

定理2.5.1（熵的链式法则）设随机变量 $X_1,X_2,...,X_n$ 服从 $p(x_1,x_2,...,x_n)$ ，则
$H(X_1,X_2,...,X_n)=\sum\limits_{i=1}^nH(X_i|X_{i-1},...,X_1)$
定义：随机变量X和Y在给定随机变量Z时的条件互信息定义为
$I(X;Y|Z)=H(X|Z)-H(X|Y,Z)=E_{p(x,y,z)}log\frac{P(X,Y|Z)}{p(X|Z)p(Y|Z)}$

$I (X; Y ∣ Z)$ 表示在给定随机变量 Z 的条件下，随机变量 X 和 Y 之间的条件互信息（Conditional Mutual Information）。互信息是用于衡量两个随机变量之间的依赖关系或关联性的重要概念。
具体来说：

$I (X; Y ∣ Z)$ 表示在已知随机变量 Z 的情况下，随机变量 X 和 Y 之间的信息共享程度。它告诉我们，如果我们已经了解了 Z 的信息，那么 X 和 Y 之间的关联性或依赖性有多强。
在信息论中，互信息通常用来衡量两个随机变量之间的信息关联性。它的定义如下：
$\sum_{x} \sum_{y} p(x, y) \log\left(\frac{p(x, y)}{p(x)p(y)}\right)$

这是不考虑任何条件的互信息。而 $I (X; Y ∣ Z)$ 是在考虑了条件随机变量 Z 后的条件互信息。

在统计学和机器学习中，条件互信息常常用于特征选择、特征工程和建模中，以帮助确定哪些特征在已知其他特征的情况下对目标变量有用。

总之， $I (X; Y ∣ Z)$ 表示在给定条件随机变量 Z 的情况下，随机变量 X 和 Y 之间的条件互信息，用来衡量它们之间的信息关联性。这个概念在信息论、统计学和机器学习等领域都有重要应用。

定理2.5.2（互信息的链式法则）
$I(X_1,X_2,...,X_n;Y)=\sum\limits_{i=1}^nI(X_i;Y|X_{i-1},X_{i-2},...,X_1)$

我来把这个互信息的公式展开:
$I(X_1,X_2,...,X_n;Y)$ $I(X_1;Y)+I(X_2;Y|X_1)+I(X_3;Y|X_1,X_2)+...+I(X_n;Y|X_1,X_2,...,X_{n-1})$

在这里插入图片描述

2.6Jensen不等式及其结果

在本节中证明前面所定义的量的一些简单性质。从凸函数的性质开始
定义：若对于任意的 $x_1,x_2 \in (a,b)$ 及 $0≤\lambda≤1$ ，满足
$f(\lambda x_1+(1-\lambda)x_2)≤\lambda f(x_1)+(1-\lambda)f(x_2)$
则称函数f(x)在区间(a,b)上是凸的。如果仅当 $\lambda=0$ 或 $\lambda=1$ 时上式成立，则称函数f时严格凸的。

定义：如果-f为凸函数，则称函数f是凹的。如果函数总是位于任何一条弦的下面，则该函数是凸的；如果函数总是位于任何一条弦的上面，则该函数是凹的。

这是关于函数凸性（Convexity）和凹性（Concavity）的一种直观性质的表述。凸性和凹性是描述函数形状的重要概念，它们在数学、优化问题以及经济学等领域中具有广泛的应用。
让我们详细解释：

凸函数（Convex Function）：如果一个函数 f(x) 满足以下性质之一，那么它被称为凸函数：

对于任意两个点 x1 和 x2 以及任意 t（0 ≤ t ≤ 1），都有 $f (t x 1 + (1 - t) x 2) \leq t f (x 1) + (1 - t) f (x 2)$ 。这意味着函数的图像上的任何两点之间的线段位于函数图像的上方，即没有凹陷。
函数的二阶导数是非负的（在实数域上）或半正定的（在向量空间上），这意味着函数的曲率不会向下凹陷。

凸函数的直观含义是，无论你选择函数上的两个点，连接它们的线段都位于或不低于函数的图像上。
2. 凹函数（Concave Function）：与凸函数相对应，如果一个函数 f(x) 满足以下性质之一，那么它被称为凹函数：

对于任意两个点 x1 和 x2 以及任意 t（0 ≤ t ≤ 1），都有 f(tx1 + (1-t)x2) ≥ tf(x1) + (1-t)f(x2)。这意味着函数的图像上的任何两点之间的线段位于函数图像的下方，即没有凸出。
函数的二阶导数是非正的（在实数域上）或半负定的（在向量空间上），这意味着函数的曲率不会向上凸出。

凹函数的直观含义是，无论你选择函数上的两个点，连接它们的线段都位于或不高于函数的图像下方。

总之，凸函数和凹函数是非常重要的数学概念，它们具有许多重要的性质和应用。这种直观性质的表述有助于理解凸性和凹性的概念，但通常需要更严格的数学定义和证明来确定一个函数是否真正是凸函数或凹函数。

线性函数 $a x + b$ 既是凸的也是凹的。
定理2.6.1 如果函数f在某个区间上存在非负（正）的二阶导数，则f为该区间的凸函数（严格凸函数）

下面的不等式是数学领域中最广泛应用的一个，也是信息论中众多基本结论的基础。
定理2.6.2（Jensen不等式）若给定凸函数f和一个随机变量X，则
$E f (X) \geq f (EX)$
进一步，若f是严格凸的，那么上式中的等式蕴含X=EX的概率为1（即X是个常量）

这个进一步的陈述涉及严格凸函数的性质，以及它与随机变量 X 的期望值的关系。让我们逐步解释这个陈述：

严格凸函数（Strictly Convex Function）：一个函数 f(x) 被称为严格凸函数，如果对于任意两个不相等的 x1 和 x2（x1 ≠ x2），都满足以下条件：
$(1-t)f(x2),\ 其中\ 0 < t < 1$
这意味着严格凸函数的图像上的任意两点之间的线段都位于函数图像的上方，而不会共线或位于函数图像上。
Jensen 不等式的等号情况：根据 Jensen 不等式，如果函数 f(x) 是严格凸的，那么当且仅当随机变量 $X$ 是常量时，不等式变成等式。也就是说，如果 $E [f (X)] = f (E [X])$ ，则 $X$ 必须是常数（即 X 等于其期望值 E[X] 的概率为1）。
这个陈述的核心意思是，对于严格凸函数，当 Jensen 不等式中的等号成立时，这意味着随机变量 X 只有在它的期望值 E[X] 上取值，而不会有其他取值。这是因为严格凸函数的图像上的任意两点之间的线段都不会共线或位于函数图像上，因此如果 Jensen 不等式中的等号成立，就意味着 X 不会取任何介于 E[X] 之外的值。
举例来说，如果我们考虑一个严格凸的二次函数 $f(x) = x^2$ ，而 X 的分布使得 $E [X] = 0$ ，那么 Jensen 不等式中的等号成立当且仅当 X 必须等于 0，因为只有在这种情况下，函数 $f(x) = x^2$ 在点 $x = 0$ 处取得最小值，使得 Jensen 不等式成立。

总之，严格凸函数的性质导致 Jensen 不等式的等号情况下，随机变量 X 必须是一个常数，即等于其期望值的概率为1。这是严格凸函数的一个重要性质，有助于我们理解函数和随机变量之间的关系。

若需要进一步理解，可点击此文章Jensen不等式

定理2.6.3（信息不等式）设 $\in \chi)$ 为两个概率密度函数，则
$D (p ∣∣ q) \geq 0$
当且仅当对任意的 $x$ ， $p (x) = q (x)$ ，等号成立。
推论（互信息的非负性）：对任意两个随机变量X和Y，
$I (X; Y) \geq 0$
当且仅当X与Y相互独立，等号成立。

推论
$I (X; Y ∣ Z) \geq 0$
当且仅当对给定随机变量Z，X和Y是条件独立的，等号成立。

定理2.6.4 $H(X)≤log|\chi|$ ，其中 $\chi$ 表示X的字母表 $\chi$ 中元素的个数，当且仅当X服从 $\chi$ 上的均匀分布，等号成立。

这个不等式是关于随机变量 X 的熵（Entropy）的性质，它涉及到熵与随机变量的字母表大小之间的关系。让我们解释这个不等式以及为什么在均匀分布下等号成立：

熵（Entropy）：在信息论中，随机变量 X 的熵 H(X) 是衡量随机变量不确定性的一个量度。它表示在观测 X 的情况下，我们对 X 的取值所需要的平均信息量。熵越高，表示 X 的不确定性越大。
字母表大小 $\chi$ ：字母表大小表示随机变量 X 的可能取值的个数。假设 X 是一个离散随机变量， $\chi$ 表示 X 的字母表，即 X 所有可能取值的集合， $|\chi|$ 表示字母表中元素的个数。
不等式表述：不等式 $\log|\chi|$ 表示随机变量 X 的熵不会超过以 2 为底的对数的字母表大小。换句话说，熵的上限是字母表大小的对数。
等号成立条件：等号成立条件是当且仅当随机变量 X 服从字母表 $\chi$ 上的均匀分布时。均匀分布意味着 X 的所有可能取值都具有相同的概率。在这种情况下，每个取值的概率都是 1/| $\chi$ |，并且熵达到了最大值，即 $\log|\chi|$ 。

解释为什么等号成立的情况下 X 必须服从均匀分布：

当 X 是均匀分布时，每个可能的取值都有相同的概率，因此没有一个取值比其他取值更有可能。这就是为什么均匀分布是最不确定的情况，熵达到了最大值 $\log|\chi|$ 。
如果 X 不是均匀分布，即某些取值的概率更高，那么熵将小于 $\log|\chi|$ ，因为我们不需要同样多的信息来描述 X 的取值。

综上所述，不等式 $\log|\chi|$ 表示随机变量 X 的熵不会超过以 2 为底的对数的字母表大小，而等号成立的情况是当且仅当 X 服从字母表 $\chi$ 上的均匀分布时，即每个取值的概率相等。这个不等式是信息论中的基本性质，用于衡量随机变量的不确定性。

定理2.6.5（条件作用使熵减小）（信息不会有负面影响）
$H (X ∣ Y) \leq H (X)$
当且仅当X与Y相互独立，等号成立。

定理2.6.6（熵的独立界）设 $X_1,X_2,...,X_n$ 服从 $p(x_1,x_2,...,x_n)$ ，则
$H(X_1,X_2,...,X_n)≤\sum\limits_{i=1}^nH(X_i)$

2.7对数和不等式及其应用

定理2.7.1（对数和不等式）对于非负数 $a_1,a_2,...,a_n$ 和 $b_1,b_2,...,b_n$ ，
$\sum\limits_{i=1}^na_ilog\frac{a_i}{b_i}≥(\sum\limits_{i=1}^na_i)log\frac{\sum\limits_{i=1}^n a_i}{\sum\limits_{i=1}^n b_i}$
当且仅当 $\frac{a_i}{b_i}=常数$ ，等号成立。
我们再次约定 $0 l o g 0 = 0$ ， $alog\frac{a}{0}=∞(当a＞0)$ ， $0log\frac{0}{0}=0$ ，这些基于连续性很容易证明。

定理2.7.2（相对熵的凸性） $D (p ∣∣ q)$ 关于对 $(p, q)$ 是凸的，即，如果 $p_1,q_1)$ 和 $p_2,q_2)$ 为两对概率密度函数，则对所有的 $0≤\lambda≤1$ ，有
$D(\lambda p_1+(1-\lambda)p_2||\lambda q_1+(1-\lambda)q_2)≤\lambda D(p_1||q_1)+(1-\lambda)D(p_2||q_2)$

这个不等式是相对熵（也称为KL散度）的凸性不等式，它描述了相对熵在概率密度函数之间的凸性质。让我来解释一下这个不等式的含义和证明思路。
首先，让我们回顾一下相对熵的定义。给定两个概率密度函数 $p (x)$ 和 $q (x)$ ，它们通常用来表示两个不同的概率分布， $D (p ∣∣ q)$ 的相对熵定义如下：
$\int p(x) \log\left(\frac{p(x)}{q(x)}\right) dx$
现在，我们要证明对于任意两对概率密度函数 $p_1, q_1)$ 和 $p_2, q_2)$ ，以及任意 $\leq \lambda \leq 1$ ，下面的不等式成立：
$D(\lambda p_1 + (1-\lambda) p_2 || \lambda q_1 + (1-\lambda) q_2) \leq \lambda D(p_1||q_1) + (1-\lambda) D(p_2||q_2)$
这个不等式的意义是，当我们对两个概率密度函数进行凸组合（即线性组合），即取它们的凸组合权重为 $\lambda$ 和 $(1-\lambda)$ 时，相对熵的凸组合不会超过各自相对熵的凸组合。
证明思路如下：

我们首先要用 Jensen 不等式来证明相对熵的凸性。Jensen 不等式是一个有关凸函数的重要不等式，它的形式如下：对于任意凸函数 $f (x)$ 和随机变量 $X$ ，有：
$\geq f(E[X])$
这个不等式告诉我们，如果 $X$ 是一个随机变量， $f (x)$ 是凸函数，那么 $f (X)$ 的期望值不小于 $f$ 在 $X$ 的期望值上的值。我们将应用这个不等式来证明相对熵的凸性。
现在，我们来考虑 Jensen 不等式的应用。我们将 $X$ 替换为随机变量 $X$ ，其中 $X$ 取值为 $x$ 的概率是 $\lambda$ ，取值为 $y$ 的概率是 $(1-\lambda)$ 。也就是说， $X$ 表示以概率 $\lambda$ 从 $p_1$ 或 $(1-\lambda)$ 从 $p_2$ 中选择一个样本， $Y$ 表示以概率 $\lambda$ 从 $q_1$ 或 $(1-\lambda)$ 从 $q_2$ 中选择一个样本。
我们选择 $x\log(x)$ ，这是一个凸函数，然后应用 Jensen 不等式：
$\begin{align*} E[f(\lambda X + (1-\lambda) Y)] &\geq f(E[\lambda X + (1-\lambda) Y]) \\ E\left[\lambda X \log(\lambda X) + (1-\lambda) Y \log((1-\lambda) Y)\right] &\geq \lambda E[X\log(X)] + (1-\lambda) E[Y\log(Y)] \end{align*}$
在这个不等式中，我们可以将 $E[X\log(X)]$ 和 $E[Y\log(Y)]$ 分别表示为 $D(p_1||q_1)$ 和 $D(p_2||q_2)$ ，然后展开 $\lambda X \log(\lambda X)$ 和 $(1-\lambda) Y \log((1-\lambda) Y)$ 。这些项分别对应于 $D(\lambda p_1||\lambda q_1)$ 和 $D((1-\lambda) p_2||(1-\lambda) q_2)$ 。
将上述结果组合在一起，我们得到：
$\lambda D(p_1||q_1) + (1-\lambda) D(p_2||q_2) \geq D(\lambda p_1 + (1-\lambda) p_2 || \lambda q_1 + (1-\lambda) q_2)$

这正是我们要证明的不等式。
因此，我们使用 Jensen 不等式成功地证明了相对熵在概率密度函数之间的凸性质，即不等式 $D(\lambda p_1 + (1-\lambda) p_2 || \lambda q_1 + (1-\lambda) q_2) \leq \lambda D(p_1||q_1) + (1-\lambda) D(p_2||q_2)$ 成立。这个结果在信息论和概率论中有重要的应用，特别是在优化问题和概率模型中。

定义2.7.3（熵的凹性） $H (p)$ 是关于p的凹函数

定理2.7.4 设 $\sim p(x,y)=p(x)p(y|x)$ 。如果固定 $p (y ∣ x)$ ，则互信息 $I (X; Y)$ 是关于 $p (x)$ 的凹函数；而如果固定 $p (x)$ ，则互信息 $I (X; Y)$ 是关于 $p (y ∣ x)$ 的凸函数。

2.8数据处理不等式

数据处理不等式可以说明，不存在对数据的优良操作能使从数据中所获得的推理得到改善。
定义：如果Z的条件分布仅依赖于Y的分布，而与X是条件独立的，则称随机变量 $X, Y, Z$ 依序构成马尔可夫(Markov)链(记为 $X \to Y \to Z$ )。具体讲，若 $X, Y, Z$ 的联合概率密度函数可写为
$p (x, y, z) = p (x) p (y ∣ x) p (z ∣ y)$
则 $X, Y, Z$ 构成马尔可夫链 $X \to Y \to Z$
一些简单结果如下：

$X \to Y \to Z$ ，当且仅当在给定Y时，X与Z是条件独立的。
$p(x,z|y)=\frac{p(x,y,z)}{p(y)}=\frac{p(x,y)p(z|y)}{p(y)}=p(x|y)p(z|y)$
$X \to Y \to Z$ 蕴含 $Z \to Y \to X$ 。因此，有时可记为 $X\leftrightarrow Y \leftrightarrow Z$
若 $Z = f (Y)$ ，则 $X \to Y \to Z$

定理2.8.1（数据处理不等式）若X→Y→Z，则有 $I (X; Y) \geq I (X; Z)$ 。
表明不存在对Y进行确定性或随机性的处理过程，使得Y包含X的信息量增加
推论特别地，如果 $Z = g (Y)$ ，则 $I (X; Y) \geq I (X; g (Y))$ 。

推论如果 $X \to Y \to Z$ ，则 $I (X; Y ∣ Z) \leq I (X; Y)$

$I (X; Y ∣ Z)$ 表示条件互信息（Conditional Mutual Information），它是信息论中的一个重要概念，用于描述三个随机变量 X、Y 和 Z 之间的信息关联。条件互信息衡量了在给定 Z 的条件下，X 和 Y 之间的互相依赖性或信息传输量。
具体来说， $I (X; Y ∣ Z)$ 表示在已知 Z 的情况下，X 和 Y 之间的互信息。互信息是一个衡量两个随机变量之间的关联程度的度量，它表示通过观察一个随机变量来减少对另一个随机变量的不确定性的程度。
数学上，条件互信息可以通过以下方式计算：
$I (X; Y ∣ Z) = H (X ∣ Z) - H (X ∣ Y, Z)$
其中，

$H (X ∣ Z)$ 是在给定 Z 的条件下，随机变量 X 的条件熵。它表示在已知 Z 的情况下，X 的不确定性。
$H (X ∣ Y, Z)$ 是在给定 Y 和 Z 的条件下，随机变量 X 的条件熵。它表示在已知 Y 和 Z 的情况下，X 的不确定性。

因此，条件互信息 $I (X; Y ∣ Z)$ 衡量了在已知 Z 的情况下，观察 Y 对于减少对 X 不确定性的贡献。
条件互信息在信息论、通信系统、机器学习等领域具有广泛的应用，特别是在表示学习、特征选择、数据压缩和条件独立性检验等任务中。它帮助我们理解随机变量之间的相关性，以及在给定一些附加信息 Z 的情况下，这种相关性如何改变。

2.9充分统计量

假定有一族以参数 $θ$ 指示的概率密度函数 ${f_θ(x)\}$ ，设X是从中一个分布抽取的样本。设T(X)为任意一个统计量（样本的函数），如样本均值或样本方差，那么 $θ \to X \to T (X)$ ，且由数据处理不等式，对θ的任意分布，有
$I (θ; T (X)) \leq I (θ; X)$
若等号成立，则表明无信息损失

这是一个重要的信息论结果，涉及到信息传递和信息损失的概念，以及与统计估计和数据处理有关的原理。
首先，让我们解释这个结果的不同部分：

我们有一族参数化的概率密度函数 $\{f_\theta(x)\}$ ，其中 $\theta$ 是参数，表示不同的概率分布。
我们从这一族分布中随机抽取一个样本，得到随机变量 $X$ ，这个样本可以看作是从某个未知的概率分布中抽取的。
我们考虑一个统计量 $T (X)$ ，它是样本 $X$ 的函数，通常用于估计或描述样本的特征，比如样本均值或样本方差。
现在，我们要探讨 $\to X \to T(X)$ 这一系列随机变量之间的信息传递和信息损失。

$\to X$ 表示参数 $\theta$ 影响了样本 $X$ 的分布，这是一个参数到数据的映射。
$\to T(X)$ 表示样本 $X$ 影响了统计量 $T (X)$ 的值，这是数据到统计量的映射。

数据处理不等式是一个信息论中的基本原理，它告诉我们，在这种信息传递链上，信息的传递总是伴随着信息损失。具体而言，它表达了以下关系：
$I(\theta; T(X)) \leq I(\theta; X)$
这里的 $I$ 表示互信息，表示两个随机变量之间的信息量。不等式告诉我们，参数 $\theta$ 与统计量 $T (X)$ 之间的互信息不会超过参数 $\theta$ 与样本 $X$ 之间的互信息。
解释：

$I(\theta; T(X))$ 衡量了参数 $\theta$ 与统计量 $T (X)$ 之间的关联程度，即我们通过样本 $X$ 推断参数 $\theta$ 时的信息量。
$I(\theta; X)$ 衡量了参数 $\theta$ 与样本 $X$ 之间的关联程度，即参数与观测到的数据之间的信息量。

数据处理不等式告诉我们，当我们从样本 $X$ 中计算统计量 $T (X)$ 时，会丢失部分信息，因此 $I(\theta; T(X))$ 不会超过原始数据 $X$ 与参数 $\theta$ 之间的信息关联程度。
如果等号成立，即 $I(\theta; T(X)) = I(\theta; X)$ ，那么这意味着统计量 $T (X)$ 没有丢失任何关于参数 $\theta$ 的信息，也就是说，通过 $T (X)$ 可以完全还原参数 $\theta$ 的信息。然而，通常情况下，由于统计量通常是对数据的压缩或汇总，因此信息损失是不可避免的，所以等号不太可能成立。
这个原理对于统计推断和信息论有着重要的理论和实际应用，它强调了在从数据中提取信息时需要考虑信息损失的问题。

如果不清楚族的概念可以看这篇文章

如果 $T (X)$ 包含了 $X$ 所含的关于 $θ$ 的全部信息，则称统计量 $T (X)$ 关于 $θ$ 是充分的。
定义如果对 $θ$ 的任何分布，在给定 $T (X)$ 的情况下， $X$ 独立于 $θ$ （即 $θ \to T (X) \to X$ 构成马尔科夫链），则称函数 $T (X)$ 是关于分布族 ${f_θ(x)\}$ 的充分统计量
这个定义等价于数据处理不等式中等号成立的条件，即对 $θ$ 的任意分布，有
$I (θ; X) = I (θ; T (X))$
因此充分统计量保持互信息不变，反之亦然。

2.10费诺不等式

假定知道随机变量Y，想进一步推测与之相关的随机变量X的值。费诺不等式将推测随机变量X的误差概率与它的条件熵H(X|Y)联系在一起。从习题2.5中可以知道，给定另一个随机变量Y，随机变量X的条件熵为0当且仅当X是Y的函数。因此，可以通过Y估计X，其误差概率为0当且仅当H(X|Y)=0。
推而广之，我们希望仅当条件熵H(X|Y)较小时，能以较低的误差概率估计X。费诺不等式正好量化了这个想法。假定要估计随机变量X具有分布p(x)。我们观察与X相关的随机变量Y，相应的条件分布为p(y|x)，通过Y计算函数 $g(Y)=\hat X$ ，其中 $\hat X$ 是对X的估计，取值空间为 $\hat \chi$ 。我们并不要求 $\hat \chi$ 与 $\chi$ 必须相同，也允许函数g(Y)是随机的。对 $\hat X≠X$ 的概率作一个界。注意到 $X→Y→\hat X$ 构成马尔可夫链。定义误差概率为
$P_e=Pr\{\hat X ≠X\}$

这个问题涉及到随机变量估计以及误差概率的概念，特别是在条件概率和马尔可夫链的背景下。让我来解释一下。
首先，考虑一个随机变量 X，其真实分布为 p(x)。我们观察另一个随机变量 Y，它与 X 有关，并且给定 X 的条件下，Y 的条件分布为 p(y|x)。这表示 Y 的取值受到 X 的影响。
我们想要通过观察 Y 来估计 X，使用一个估计函数 $g (Y)$ ，其中 $\hat{X}$ 表示对 X 的估计。请注意，我们不要求 $\hat{\chi}$ （ $\hat{X}$ 的取值空间）与 $\chi$ （X 的取值空间）必须相同，而且函数 $g (Y)$ 本身可以是随机的，这意味着我们可以获得不确定的估计。
现在，我们关心的是误差概率 $P_e$ ，它表示估计 $\hat{X}$ 与真实值 X 不相等的概率。数学上，它可以表示为：
$P_e = \Pr\{\hat{X} \neq X\}$
也就是说， $P_e$ 是我们估计的随机变量 $\hat{X}$ 与真实随机变量 X 不相等的概率。
这里提到了一个马尔可夫链，即 $\to Y \to \hat{X}$ 。这表示我们的估计过程形成了一个马尔可夫链，其中每个随机变量都依赖于前一个随机变量。这个链的目的是通过观察 Y 来估计 X，但由于估计过程可能不完美，所以存在误差，即 $P_e$ 。
这个问题通常与统计估计、信息论和机器学习中的估计理论有关，目的是分析估计过程的准确性和误差概率，以便了解我们的估计方法的性能和可靠性。误差概率 $P_e$ 的大小反映了我们估计的质量，较低的 $P_e$ 表示估计较为准确。

定理2.10.1（费诺不等式）对任何满足 $X→Y→\hat X$ 的估计量 $\hat X$ ，设 $P_e=Pr\{X≠\hat X\}$ ，有
$H(P_e)+P_elog|\chi|≥H(X|\hat X)≥H(X|Y)$
上述不等式可以减弱为
$1+P_elog|\chi|≥H(X|Y)$
或
$P_e≥\frac{H(X|Y)-1}{log|\chi|}$

这个定理涉及到估计理论中的费诺不等式，它提供了关于估计误差概率（ $P_e$ ）和条件熵（ $H (X ∣ Y)$ ）之间的一些不等关系。让我来解释这些不等式的含义。
首先，考虑一个估计问题，其中我们试图从观测到的随机变量 Y 来估计随机变量 X，使用估计量 $\hat{X}$ 。这个问题可以表示为 $\to Y \to \hat{X}$ ，这意味着我们有一个马尔可夫链，其中每个随机变量依赖于前一个随机变量。
现在，我们关心的是估计误差概率，表示为 $P_e = \Pr\{X \neq \hat{X}\}$ 。这是我们的估计量 $\hat{X}$ 与真实值 X 不相等的概率。
费诺不等式提供了以下不等关系：

$H(P_e) + P_e \log|\chi| \geq H(X|\hat{X})$
这个不等式告诉我们，估计误差概率的熵（ $H(P_e)$ ）与误差概率乘以 $\log|\chi|$ 的乘积总是不小于条件熵 $H(X|\hat{X})$ 。这意味着，我们的估计误差概率和估计质量之间存在一种信息性的关系。如果误差概率较低，那么条件熵 $H(X|\hat{X})$ 也会相对较低，表示估计相对准确。
$H(X|\hat{X}) \geq H(X|Y)$
这个不等式告诉我们，使用估计量 $\hat{X}$ 来估计随机变量 X 的条件熵 $H(X|\hat{X})$ 不会小于使用观测到的随机变量 Y 来估计 X 的条件熵 $H (X ∣ Y)$ 。这是因为我们通常期望通过观测更多的信息（Y）来获得更好的估计。
然后，这两个不等式可以进一步合并为：
$P_e \log|\chi| \geq H(X|Y)$
这个不等式表示，通过观测 Y 来估计 X 的条件熵 $H (X ∣ Y)$ 至少要大于等于 1 加上误差概率 $P_e$ 乘以 $\log|\chi|$ 。这意味着，为了减小条件熵，我们需要降低误差概率或者增加观测到的信息量。
最后，从这个不等式我们可以得出：
$P_e \geq \frac{H(X|Y) - 1}{\log|\chi|}$
这个不等式提供了一个关于误差概率 $P_e$ 的下界，它告诉我们，要减小误差概率，需要增加观测到的信息量，并且这个下界与条件熵 $H (X ∣ Y)$ 有关。这对于估计理论中的性能分析和优化是有用的。