熵,互信息

edvincecilia

于 2024-09-13 23:31:34 发布

阅读量850

点赞数 23

文章标签：概率论

本文链接：https://blog.csdn.net/qq_41037856/article/details/142236175

版权

熵的定义

熵（Entropy）在信息论中是用来衡量随机变量的不确定性或信息量的一个度量。它由克劳德·香农（Claude Shannon）提出，最初用于量化通信系统中的信息量。熵的定义为：

$\sum_{x \in X} p(x) \log p(x)$

其中：

(H(X)) 表示随机变量 (X) 的熵。
(p(x)) 表示 (X) 取值为 (x) 的概率。
(\log) 表示对数函数，通常以 2 为底（即 (\log_2)），这样熵的单位是比特（bit）。

熵的计算示例

让我们通过一个具体的例子来说明熵的计算过程。

假设我们有一个简单的抛硬币实验。硬币有两面：正面（Head，H）和反面（Tail，T），这两个结果的概率是均等的，即：

$\frac{1}{2}, \quad p(T) = \frac{1}{2}$

1. 熵的计算

熵的定义为：

$\sum_{x \in X} p(x) \log_2 p(x)$

在这个例子中，(X) 是抛硬币的结果，它有两个可能的值：H 和 T。我们可以计算它们的熵：

$\left( p(H) \log_2 p(H) + p(T) \log_2 p(T) \right)$

代入概率值：

$\left( \frac{1}{2} \log_2 \frac{1}{2} + \frac{1}{2} \log_2 \frac{1}{2} \right)$

我们知道 (\log_2 \frac{1}{2} = -1)，所以：

$\left( \frac{1}{2} \times (-1) + \frac{1}{2} \times (-1) \right)$

$\left( -\frac{1}{2} - \frac{1}{2} \right) = 1 \text{ 比特（bit）}$

这个结果告诉我们，对于这个均匀分布的抛硬币实验，熵是 1 比特。这意味着每次抛硬币提供了 1 比特的信息量或不确定性。

2. 不均匀分布的例子

现在假设我们有一个不均匀分布的硬币，正面（H）的概率为 0.9，反面（T）的概率为 0.1。这个系统中的熵会发生变化。

概率如下：

$\quad p(T) = 0.1$

根据熵的定义，我们再次计算：

$\left( p(H) \log_2 p(H) + p(T) \log_2 p(T) \right)$

代入概率值：

$\left( 0.9 \log_2 0.9 + 0.1 \log_2 0.1 \right)$

我们需要计算 (\log_2 0.9) 和 (\log_2 0.1)：

$\log_2 0.9 \approx -0.152, \quad \log_2 0.1 \approx -3.322$

代入这些值：

$\left( 0.9 \times (-0.152) + 0.1 \times (-3.322) \right)$

$\left( -0.1368 - 0.3322 \right) = 0.469 \text{ 比特}$

在这个不均匀分布的例子中，熵为 0.469 比特。相比均匀分布（熵为 1 比特）的情况，这个熵较低，因为正面出现的概率非常高，所以不确定性较小，信息量也较少。

结论

在均匀分布下（如公平的抛硬币），熵是最大的，因为每个结果都有相同的可能性，系统的不确定性最大。
在不均匀分布下（如一枚几乎总是正面的硬币），熵较低，因为系统的某些结果更为确定，不确定性减少了。

下面是所有公式都用 $$ 包围的联合熵解释，符合 Typora 的格式：

联合熵的定义

联合熵（Joint Entropy）是衡量两个或多个随机变量联合分布的不确定性的度量。它是对单个随机变量的熵的扩展，用于描述多个变量一起时的不确定性。

设 (X) 和 (Y) 是两个随机变量，它们的联合熵 (H(X, Y)) 定义为 (X) 和 (Y) 的联合概率分布 (p(x, y)) 的期望信息量：

$\sum_{x \in X} \sum_{y \in Y} p(x, y) \log p(x, y)$

其中：

(p(x, y)) 是 (X) 和 (Y) 的联合概率分布，表示 (X = x) 且 (Y = y) 同时发生的概率。
(H(X, Y)) 是 (X) 和 (Y) 一起时的不确定性，即它们联合分布的不确定性。

联合熵描述了当我们同时考虑两个随机变量时，系统的总不确定性。例如，如果 (X) 和 (Y) 完全独立，那么它们的联合熵就是两个变量各自熵的简单和。但如果它们之间有依赖关系，那么联合熵会小于两者独立熵的总和。

联合熵的性质

非负性：
联合熵 $\geq 0)$ ，因为概率 (p(x, y)) 的对数是负值，而负号使熵为非负值。
与单个熵的关系：
联合熵可以视为单个随机变量熵的扩展，它表示同时考虑两个变量时的总信息量。如果 (X) 和 (Y) 是相互独立的，则联合熵可以分解为两个变量的单独熵之和：
$\quad \text{当且仅当 } X \perp Y$

其中， $\perp Y)$ 表示 (X) 和 (Y) 相互独立。
条件熵的关系：
联合熵与条件熵也密切相关。给定 (Y) 的情况下，(X) 的条件熵 (H(X | Y)) 表示在知道 (Y) 之后 (X) 的不确定性。联合熵可以分解为单个熵与条件熵之和：
$H (X, Y) = H (X ∣ Y) + H (Y) = H (Y ∣ X) + H (X)$

这表示联合熵可以被理解为首先知道 (Y) 的不确定性 (H(Y))，再加上在知道 (Y) 之后剩下的 (X) 的不确定性 (H(X | Y))。

联合熵的计算示例

假设我们有两个离散随机变量 (X) 和 (Y)，它们的联合分布如下：

(X) / (Y)	(Y = 0)	(Y = 1)
(X = 0)	0.2	0.3
(X = 1)	0.1	0.4

根据联合概率分布，我们可以计算联合熵：

$\sum_{x, y} p(x, y) \log_2 p(x, y)$

代入具体的联合概率：

$\left( 0.2 \log_2 0.2 + 0.3 \log_2 0.3 + 0.1 \log_2 0.1 + 0.4 \log_2 0.4 \right)$

计算各项对数值：

$\log_2 0.2 \approx -2.322, \quad \log_2 0.3 \approx -1.737, \quad \log_2 0.1 \approx -3.322, \quad \log_2 0.4 \approx -1.322$

代入计算：

$\approx - \left( 0.2 \times (-2.322) + 0.3 \times (-1.737) + 0.1 \times (-3.322) + 0.4 \times (-1.322) \right)$

$\approx - \left( -0.4644 - 0.5211 - 0.3322 - 0.5288 \right)$

$\approx 1.8465 \text{ 比特}$

因此，在这个例子中，随机变量 (X) 和 (Y) 的联合熵为 1.8465 比特，表示它们联合分布的不确定性。

联合熵的应用

联合熵在多个领域中有广泛应用，例如：

信息论：用来量化两个信号源之间的联合不确定性，衡量它们一起提供的总信息量。
机器学习：在多变量统计中，联合熵可以用来评估多个变量之间的相关性，帮助选择特征或进行聚类分析。
多模态数据融合：联合熵可以用来衡量不同模态（如图像、语音、文本）之间的信息整合程度。

总结

联合熵扩展了单变量熵的概念，用来衡量多个随机变量同时存在时的不确定性。它可以反映变量间的依赖关系，也可以通过条件熵进一步分解，以描述一个变量在另一个变量已知条件下的剩余不确定性。

条件熵的定义

条件熵（Conditional Entropy） 用来衡量在已知另一个随机变量的情况下，某个随机变量的不确定性。对于两个随机变量 $(X)$ 和 $(Y)$ ，条件熵 $(H (X ∣ Y))$ 定义为：在知道 $(Y)$ 的情况下， $(X)$ 的不确定性。

具体来说，给定 $(Y = y)$ 的条件下， $(X)$ 的条件熵可以表示为：

$\sum_{y \in Y} p(y) \sum_{x \in X} p(x|y) \log p(x|y)$

其中：

$p (x ∣ y)$ 表示在 $Y = y$ 时， $X = x$ 发生的条件概率。
$p (y)$ 表示 $Y = y$ 的边际概率。
条件熵 $H (X ∣ Y)$ 描述了当我们已经知道 $Y$ 时，关于 $X$ 剩余的不确定性。

条件熵的直观解释

条件熵反映了这样一个概念：如果我们已经知道随机变量 $Y$ 的取值，那么关于随机变量 $X$ 的不确定性减少了多少。条件熵是这种剩余不确定性的量化。

例如：

如果 $X$ 和 $Y$ 是完全独立的，那么 $H (X ∣ Y) = H (X)$ ，即知道 $Y$ 并不能减少 $X$ 的不确定性。
如果 $X$ 和 $Y$ 是完全相关的，那么 $H (X ∣ Y) = 0$ ，即一旦知道 $Y$ ，我们可以完全确定 $X$ 的取值，因此没有不确定性。

条件熵与联合熵的关系

条件熵和联合熵之间有非常重要的关系。联合熵 $H (X, Y)$ 衡量的是 $X$ 和 $Y$ 的总体不确定性，而条件熵 $H (X ∣ Y)$ 则可以通过联合熵和 $Y$ 的边际熵 $H (Y)$ 来表示：

$H (X ∣ Y) = H (X, Y) - H (Y)$

其中：

$H (X, Y)$ 表示 $X$ 和 $Y$ 的联合熵，描述了同时考虑 $X$ 和 $Y$ 时的总不确定性。
$H (Y)$ 是随机变量 $Y$ 的熵，表示 $Y$ 本身的固有不确定性。

这个关系的含义是：条件熵 $H (X ∣ Y)$ 表示联合熵 $H (X, Y)$ 中去除了关于 $Y$ 的不确定性之后，剩余的 $X$ 的不确定性。

条件熵的计算示例

为了更清楚地理解条件熵，假设我们有如下的联合概率分布：

$X$ / $Y$	$Y = 0$	$Y = 1$
$X = 0$	0.25	0.25
$X = 1$	0.25	0.25

现在我们计算 $H (X ∣ Y)$ 。

首先计算 $p (x ∣ y)$ ，即条件概率：
- 当 $Y = 0$ 时， $\frac{0.25}{0.5} = 0.5$ ， $\frac{0.25}{0.5} = 0.5$ 。
- 当 $Y = 1$ 时， $\frac{0.25}{0.5} = 0.5$ ， $\frac{0.25}{0.5} = 0.5$ 。
然后根据条件熵的定义，计算 $H (X ∣ Y)$ ：

$\sum_{y \in Y} p(y) \sum_{x \in X} p(x|y) \log_2 p(x|y)$

由于 $p (y = 0) = 0.5$ 和 $p (y = 1) = 0.5$ ，我们可以计算：

$\left[ 0.5 \times \left( 0.5 \log_2 0.5 + 0.5 \log_2 0.5 \right) + 0.5 \times \left( 0.5 \log_2 0.5 + 0.5 \log_2 0.5 \right) \right]$
由于 $log_2 0.5 = -1$ ，进一步简化为：

$\left[ 0.5 \times (-1) + 0.5 \times (-1) \right] = 1$

因此，条件熵 $\text{ 比特}$ ，表示在知道 $Y$ 的情况下，关于 $X$ 仍然存在 1 比特的不确定性。

互信息

互信息的定义

互信息（Mutual Information, MI） 是衡量两个随机变量之间的依赖性的一种方式。具体来说，它表示一个随机变量提供了多少关于另一个随机变量的信息。互信息用来量化两个随机变量之间共享的信息量。如果两个变量是完全独立的，那么互信息为 0；如果两个变量完全依赖，则互信息达到最大值。

两个随机变量 $X$ 和 $Y$ 的互信息定义为：

$\sum_{x \in X} \sum_{y \in Y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}$

其中：

$p (x, y)$ 是 $X$ 和 $Y$ 的联合概率分布。
$p (x)$ 和 $p (y)$ 分别是 $X$ 和 $Y$ 的边际概率分布。
$I (X; Y)$ 表示 $X$ 和 $Y$ 之间共享的信息量。

互信息的直观解释

互信息可以理解为通过知道一个变量，减少另一个变量的不确定性。它衡量了随机变量之间的统计依赖性：

如果 $X$ 和 $Y$ 是独立的，那么 $p (x, y) = p (x) p (y)$ ，所以：

$\sum_{x \in X} \sum_{y \in Y} p(x, y) \log \frac{p(x) p(y)}{p(x) p(y)} = 0$

这表示两个变量之间没有信息共享，互信息为 0。
如果 $X$ 和 $Y$ 完全依赖（即 $X$ 的取值完全由 $Y$ 决定，或者反之），那么互信息达到最大值，表示通过一个变量可以完全确定另一个变量。

互信息与熵的关系

互信息可以通过熵和条件熵的概念来表达。具体地，互信息是 $X$ 的熵与给定 $Y$ 的条件熵之差：

$I (X; Y) = H (X) - H (X ∣ Y)$

同样地，互信息也可以表示为 $Y$ 的熵与给定 $X$ 的条件熵之差：

$I (X; Y) = H (Y) - H (Y ∣ X)$

这表明互信息可以解释为通过知道 $Y$ 后， $X$ 的不确定性减少的量。同样地，它也可以解释为通过知道 $X$ 后， $Y$ 的不确定性减少的量。

另外，互信息也可以表示为联合熵和边际熵的组合：

$I (X; Y) = H (X) + H (Y) - H (X, Y)$

这表明互信息等于两个变量的单独不确定性之和减去它们的联合不确定性。互信息反映了 $X$ 和 $Y$ 之间的共享信息量：当我们计算两个变量的联合熵时，包含了它们之间的共享信息，而这个共享信息在单独的熵中会被重复计算。

互信息的对称性

互信息具有对称性，即：

$I (X; Y) = I (Y; X)$

这意味着 $X$ 和 $Y$ 之间的互信息无论从哪个角度来看都是一样的，它只依赖于两个变量之间的依赖关系，而与它们的顺序无关。

互信息的计算示例

假设我们有两个随机变量 $X$ 和 $Y$ ，它们的联合概率分布如下：

$X$ / $Y$	$Y = 0$	$Y = 1$
$X = 0$	0.2	0.3
$X = 1$	0.1	0.4

现在我们计算互信息 $I (X; Y)$ 。

首先计算边际概率分布：
- $p (X = 0) = 0.2 + 0.3 = 0.5$
- $p (X = 1) = 0.1 + 0.4 = 0.5$
- $p (Y = 0) = 0.2 + 0.1 = 0.3$
- $p (Y = 1) = 0.3 + 0.4 = 0.7$
然后根据互信息的定义，计算每一项：

$\sum_{x \in X} \sum_{y \in Y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}$

计算每一项：
- 当 $X = 0$ 且 $Y = 0$ 时：
  
  $\quad \frac{p(0, 0)}{p(0)p(0)} = \frac{0.2}{0.5 \times 0.3} = \frac{0.2}{0.15} = 1.33$
  
  $\log 1.33 = 0.2 \times 0.125 = 0.025$
- 对其他项进行类似计算，最后将所有结果相加得到互信息：
  
  $\dots = 0.214 \text{ 比特}$