信息论基础第二章部分习题

Chen_Chance

已于 2023-10-05 14:55:00 修改

阅读量1.6k

点赞数 3

分类专栏：信息论文章标签：机器学习算法人工智能

于 2023-10-04 23:33:40 首次发布

本文链接：https://blog.csdn.net/qq_44154915/article/details/133563952

版权

信息论专栏收录该内容

6 篇文章

订阅专栏

2.5

证明若H(Y|X)=0，则Y是X的函数

若 $H (Y ∣ X) = 0$ ，意味着在已知 $X$ 的条件下， $Y$ 的不确定性为零，即给定 $X$ 的值，我们完全确定了 $Y$ 的值。这表明 $Y$ 的取值完全由 $X$ 决定，因此 $Y$ 是 $X$ 的确定性函数。

证明思路如下：

假设 $H (Y ∣ X) = 0$ ，即 $Y$ 在已知 $X$ 的条件下没有不确定性。这意味着对于每个可能的 $x$ 值，我们都可以唯一地确定 $Y$ 的值。我们可以表示这一点如下：

$\forall x, \exists y: P(Y = y|X = x) = 1$

这表示对于任何 $x$ ，都存在一个唯一的 $y$ ，使得在给定 $X = x$ 的情况下， $Y$ 必然等于 $y$ 。

因此，我们可以得出结论， $Y$ 是 $X$ 的确定性函数，因为 $X$ 的每个可能取值都能唯一地确定 $Y$ 的取值，没有不确定性。

2.6

条件互信息与无条件互信息。试给出联合随机变量X,Y和Z的例子，使得
(a)I(X;Y|Z)<I(X;Y)
(b)I(X;Y|Z)>I(X;Y)

(a) 一个例子，满足 $I (X; Y ∣ Z) < I (X; Y)$ ：

考虑三个二进制随机变量 X、Y 和 Z，它们的联合概率分布如下：

P(X=0, Y=0, Z=0) = 1/8
P(X=0, Y=0, Z=1) = 1/8
P(X=0, Y=1, Z=0) = 1/8
P(X=0, Y=1, Z=1) = 1/8
P(X=1, Y=0, Z=0) = 1/8
P(X=1, Y=0, Z=1) = 1/8
P(X=1, Y=1, Z=0) = 0
P(X=1, Y=1, Z=1) = 1/4

现在，我们来计算条件互信息和互信息：

$I (X; Y ∣ Z) = H (X ∣ Z) - H (X ∣ Y, Z) = (1/2) - (1/2) = 0$
$I (X; Y) = H (X) - H (X ∣ Y) = 1 - (1/2) = 1/2$

所以，我们得到 $I (X; Y ∣ Z) = 0 < 1/2 = I (X; Y)$ 。

(b) 一个例子，满足 $I (X; Y ∣ Z) > I (X; Y)$ ：

考虑三个二进制随机变量 X、Y 和 Z，它们的联合概率分布如下：

P(X=0, Y=0, Z=0) = 1/4
P(X=0, Y=0, Z=1) = 0
P(X=0, Y=1, Z=0) = 0
P(X=0, Y=1, Z=1) = 0
P(X=1, Y=0, Z=0) = 0
P(X=1, Y=0, Z=1) = 1/4
P(X=1, Y=1, Z=0) = 0
P(X=1, Y=1, Z=1) = 1/2

现在，我们来计算条件互信息和互信息：

$I (X; Y ∣ Z) = H (X ∣ Z) - H (X ∣ Y, Z) = (1/2) - (1/2) = 0$
$I (X; Y) = H (X) - H (X ∣ Y) = 1 - (1/2) = 1/2$

所以，我们得到 $I (X; Y ∣ Z) = 0 < 1/2 = I (X; Y)$ 。

在这两个例子中，我们找到了满足条件 $I (X; Y ∣ Z) < I (X; Y)$ 和 $I (X; Y ∣ Z) > I (X; Y)$ 的概率分布。这突显了信息论中条件互信息和互信息的性质，它们可以根据概率分布的不同而变化。

2.12

联合熵的例子。设p(x,y)由2右表给出，试计算

X\Y	0	1
0	1/3	1/3
1	0	1/3

(a)H(X)，H(Y)
(b)H(X|Y)，H(Y|X)
(c )H(X,Y)
(d)H(Y)-H(Y|X)
(e)I(X;Y)
(f)画出(a)~(e)中所有量的文氏图

( a ) $H(X)=\frac{2}{3}log\frac{3}{2}+\frac{1}{3}log3=0.918bits=H(Y)$
( b ) $H(X|Y)=\frac{1}{3}H(X|Y=0)+\frac{2}{3}H(X|Y=1)=0.667bits=H(Y|X)$
( c ) $H(X,Y)=3×\frac{1}{3}log3=1.585bits$
( d ) $H (Y) - H (Y ∣ X) = 0.251 bi t s$
( e ) $I (X; Y) = H (Y) - H (Y ∣ X) = 0.251 bi t s$

2.14

设随机变量X，Y的取值分别为 $x_1,x_2,...,x_r$ 和 $y_1,y_2,...,y_s$ ，设Z=X+Y。
(a)证明 $H (Z ∣ X) = H (Y ∣ X)$ ，并讨论如果 $X, Y$ 独立，则 $H (Y) \leq H (Z)$ 及 $H (X) \leq H (Z)$ 。由此说明独立随机变量的和增加不确定度。
(b)给出一个（必须是相关）随机变量例子，使得 $H (X) ＞ H (Z)$ 且 $H (Y) ＞ H (Z)$ 。
(c )在什么条件下， $H (Z) = H (X) + H (Y)$ ?

(a) $Z = X + Y$ 。因此 $p (Z = z ∣ X = x) = p (Y = z - x ∣ X = x)$

这是因为在给定 $X$ 的条件下， $Z$ 的取值取决于 $Y$ 的取值和 $X$ 的取值，而 $Z$ 等于 $X + Y$ 。所以，我们可以使用条件概率来表示 $Z$ 在给定 $X$ 的条件下的分布。
具体来说，对于任意给定的 $x$ 和 $z$ ，我们有：
$p (Z = z ∣ X = x) = p (X + Y = z ∣ X = x)$
由于 $X$ 是已知的，我们可以将 $X = x$ 代入等式中：
$p (Z = z ∣ X = x) = p (Y = z - x ∣ X = x)$
这表示在已知 $X = x$ 的情况下， $Z$ 的取值 $z$ 与 $Y$ 的取值 $z - x$ 有关。这是因为 $Z = X + Y$ 的定义决定了这种关系。因此，我们可以使用条件概率 $p (Y = z - x ∣ X = x)$ 来表示 $Z$ 在给定 $X = x$ 的条件下的分布。

让我解释一下你提到的这一步：
$\sum_x p(x) H(Z|X=x) = -\sum_x p(x) \sum_z p(Z=z|X=x) \log p(Z=z|X=x)$
这一步是使用了条件熵的定义，首先将 $H (Z ∣ X)$ 表示为关于 $X$ 的边缘分布的条件熵，然后展开了条件熵的定义，将其写成了一个求和的形式。
$\sum_x p(x) \sum_y p(Y=z-x|X=x) \log p(Y=z-x|X=x)$
接下来，你将 $p (Z = z ∣ X = x)$ 表示为 $p (Y = z - x ∣ X = x)$ ，这是因为在给定 $X = x$ 的条件下， $Z$ 的取值是由 $Y$ 的取值和 $X$ 的取值共同决定的，所以你可以用 $p (Y = z - x ∣ X = x)$ 来表示它。
$\sum_x p(x) H(Y|X=x)$
然后，你计算了在给定 $X = x$ 的条件下 $Y$ 的条件熵 $H (Y ∣ X = x)$ 。
最后，你对所有可能的 $X$ 的取值求和，得到了 $H (Y ∣ X)$ ，这表示在给定 $X$ 的条件下 $Y$ 的条件熵。
这一步的推导是正确的，它从条件熵的定义出发，逐步展开和简化，最终得到了 $H (Z ∣ X)$ 与 $H (Y ∣ X)$ 相等的结果。这表明在给定 $X$ 的条件下， $Z$ 和 $Y$ 的条件不确定性相同。

如果X和Y是独立的，那么 $H (Y ∣ X) = H (Y)$ 。因为 $I (X; Z) \geq 0$ ，我们可以得到 $H (Z) \geq H (Z ∣ X) = H (Y ∣ X) = H (Y)$ ，相似的我们可以证明 $H (Z) \geq H (X)$

首先，如果 $X$ 和 $Y$ 是独立的，那么 $H (Y ∣ X) = H (Y)$ 是成立的，这是因为在独立的情况下， $Y$ 的条件不确定性与 $X$ 无关，即在知道 $X$ 的情况下，对 $Y$ 的不确定性没有影响，因此 $H (Y ∣ X) = H (Y)$ 。
现在，让我们讨论 $H (Z)$ 、 $H (Z ∣ X)$ 、 $H (Y)$ 和 $H (X)$ 之间的关系。由于互信息的非负性质， $\geq 0$ ，我们可以得到：
$\geq H(Z|X)$
这是因为 $H (Z ∣ X)$ 是在给定 $X$ 的情况下 $Z$ 的条件熵，而 $H (Z)$ 是 $Z$ 的边缘熵，根据条件熵的性质，条件熵不会超过边缘熵。
另一方面，由于 $X$ 和 $Y$ 是独立的，我们知道 $H (Y ∣ X) = H (Y)$ 。因此，我们可以将不等式 $\geq H(Z|X)$ 改写为：
$\geq H(Y)$
这意味着 $Z$ 的边缘熵不小于 $Y$ 的熵。
类似地，根据独立性，我们可以得到 $\geq H(X)$ ，即 $Z$ 的边缘熵不小于 $X$ 的熵。
综上所述，如果 $X$ 和 $Y$ 是独立的，那么可以得出结论： $\geq H(Z|X) = H(Y|X) = H(Y)$ 和 $\geq H(X)$ 。这表示在独立的情况下， $Z$ 的边缘熵不小于 $Y$ 和 $X$ 的熵。

（b）考虑X和Y的联合概率密度使得
$X=-Y=\begin{cases} 1 & 可能性1/2 \\ 0 & 可能性1/2 \end{cases}$
那么H(X)=H(Y)=1，而Z=0的概率是1，因此H(Z)=0

（c）我们已知
$H (Z) \leq H (X, Y) \leq H (X) + H (Y)$
因为Z是(X,Y)的函数，H(X,Y)=H(X)+H(Y|X)≤H(X)+H(Y)。

上述不等式反映了信息熵的基本性质，其中 $H (Z)$ 表示随机变量 $Z$ 的熵， $H (X, Y)$ 表示随机变量 $X$ 和 $Y$ 的联合熵， $H (X)$ 和 $H (Y)$ 分别表示随机变量 $X$ 和 $Y$ 的独立熵。

$\leq H(X, Y)$ :
这是由信息熵的定义以及联合熵的性质决定的。信息熵是用来度量随机变量的不确定性的，而联合熵是用来度量多个随机变量一起的不确定性。 $H (Z)$ 表示随机变量 $Z$ 的不确定性，它是在给定 $X$ 和 $Y$ 的条件下 $X + Y$ 的不确定性。因此，根据信息熵的定义， $H (Z)$ 不会大于同时考虑 $X$ 和 $Y$ 的联合不确定性，即 $\leq H(X, Y)$ 。

信息熵的定义是用来度量一个随机变量的不确定性的度量。对于一个随机变量 $Z$ ， $H (Z)$ 表示了它的不确定性的度量。现在，假设我们有两个随机变量 $X$ 和 $Y$ ，它们可以合并成一个新的随机变量 $X + Y$ （这是因为它们的和仍然是一个随机变量）。

考虑情况一：我们首先计算随机变量 $X + Y$ 的不确定性 $H (Z)$ ，这表示在不知道 $X$ 和 $Y$ 之间的关系的情况下，我们对 $X + Y$ 的不确定性的度量。
情况二：现在，我们考虑联合不确定性，即同时考虑 $X$ 和 $Y$ 的联合不确定性 $H (X, Y)$ 。这表示我们已知 $X$ 和 $Y$ 之间的关系，并且在这个关系下考虑它们的联合不确定性。
根据信息熵的定义，对于情况一， $H (Z)$ 应该表示 $X + Y$ 的不确定性，因为我们不知道它们之间的关系。
对于情况二， $H (X, Y)$ 表示已知 $X$ 和 $Y$ 之间的关系时的联合不确定性。在这种情况下，我们有更多的信息，因为我们知道它们之间的关系，所以联合不确定性可能会降低。

因此， $H (Z)$ 不会大于同时考虑 $X$ 和 $Y$ 的联合不确定性 $H (X, Y)$ ，因为在情况一中，我们没有利用关于 $X$ 和 $Y$ 之间的关系的信息，而在情况二中，我们利用了这些信息来计算联合不确定性。这就是为什么可以说 $\leq H(X, Y)$ 。

2.11 相关性的度量

设 $X_1$ 与 $X_2$ 同分布，但不一定独立。设
$\rho=1-\frac{H(X_2|X_1)}{H(X_1)}$
( A )证明 $\rho=\frac{I(X_1;X_2)}{H(X_1)}$
( B )证明 $0≤\rho≤1$
( C )何时有 $\rho=0$
( D )何时有 $\rho=1$

（a） $\rho=\frac{H(X_1)-H(X_2|X_1)}{H(X_1)}=\frac{H(X_2)-H(X_2|X_1)}{H(X_1)}=\frac{I(X_1;X_2)}{H(X_1)}$
(B)因为 $0≤H(X_2|X_1)≤H(X_2)=H(X_1)$
$0≤\frac{H(X_2|X_1)}{H(X_1)}≤1$ $0≤\rho ≤1$
（c）当且仅当 $I(X_1;X_2)=0$ ，即 $X_1$ 和 $X_2$ 独立
（d）当且仅当 $I(X_1;X_2)=1$ ，即 $X_1$ 和 $X_2$ 互为对方的函数

2.25

$I (X; Y; Z) = I (X; Y) - I (X; Y ∣ Z) = I (X; Y) - (I (X; Y, Z) - I (X; Z)) = I (X; Y) + I (X; Z) - I (X; Y, Z)$

这是基于信息论中的互信息（Mutual Information）和条件互信息（Conditional Mutual Information）的性质得出的等式。让我解释一下每一步是如何得出的：
首先，这个等式是互信息和条件互信息的定义和性质的应用。

$I (X; Y; Z)$ 是指随机变量 X、Y 和 Z 之间的互信息。它可以表示为 $I (X; Y; Z) = I (X; Y) - I (X; Y ∣ Z)$ 。
$I (X; Y ∣ Z)$ 是给定 Z 条件下 X 和 Y 之间的条件互信息。所以， $I (X; Y; Z) = I (X; Y) - I (X; Y ∣ Z)$ 表示了在已知 Z 的情况下，X 和 Y 之间的互信息减去了条件互信息。
接下来，我们使用条件互信息的定义： $I (X; Y ∣ Z) = I (X; Y, Z) - I (X; Z)$ ，将 $I (X; Y ∣ Z)$ 展开为 $I (X; Y, Z) - I (X; Z)$ 。