信息测度：信息熵、联合熵、条件熵、互信息、条件互信息、块熵、相对熵、转移熵

OlivePlum

已于 2024-04-07 01:55:06 修改

阅读量851

点赞数 11

文章标签：概率论算法机器学习

于 2024-04-03 05:59:24 首次发布

本文链接：https://blog.csdn.net/weixin_43283275/article/details/137214368

版权

1.信息量

信息量是指从 $N$ 个相等可能事件中选出一个事件所需要的信息度量或含量，也就是在辩识 $N$ 个事件中特定的一个事件的过程中所需要提问是或否的最少次数。

在一个系统中，等可能事件的数量越多，事件的发生概率也就越低，传递究竟是哪个事件发生所需的比特信号也就越多。

举个例子，假如有两个相互隔离的房间A、B，二者只能通过01信号传递信息。当A房间投掷了一个硬币时，我们至少需要使用 $log _22=1$ 个比特信号告诉B房间是正面朝上还是反面朝上。类似地，当A房间投掷了一个有8个面的骰子时，我们至少需要 $log _28=3$ 个比特的信号来传递该信息。

假如系统中有的 $N$ 个等可能事件，那么我们将 $log _2N$ 称为信息量。由于等可能事件的发生概率为 $\frac{1}{N}$ ，则信息量的公式可以写作
$-\log _2\frac{1}{N}$ 推而广之，假设事件 $x$ 的发生概率为 $p\left( x \right)$ ，则传递该事件发生需要的最少比特信号位（即信息量）为 $-\log _2p\left( x \right)$

2.信息熵

信息熵用于衡量整个事件空间包含的平均信息量，即信息量的平均期望。将事件空间中所有事件发生的概率，乘以该事件的信息量，即可得到信息熵：
$H\left( x \right) =\sum_{x\in X}{p\left( x \right)}\cdot \left( -\log _2p\left( x \right) \right) =-\sum_{x\in X}{p\left( x \right)}\cdot \log _2p\left( x \right)$

3.联合熵

对于服从联合分布为 $p\left( x,y \right)$ 的一对离散随机变量 $\left( X,Y \right)$ ，其联合熵(joint entropy)定义为：
$H\left( X,Y \right) =-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}}\cdot \log _2p\left( x,y \right)$

4.条件熵

表示在 $X$ 给定条件下， $Y$ 的条件概率分布的熵对 $X$ 的数学期望

若 $\left( X,Y \right) \sim p\left( x,y \right)$ ，条件熵(Conditional entropy) $H\left( \left. Y \right|X \right)$ 定义为：
$\begin{aligned} H\left( \left. Y \right|X \right) &=\sum_{x\in X}{p\left( x \right)}\cdot H\left( \left. Y \right|X=x \right) =-\sum_{x\in X}{p\left( x \right)}\sum_{y\in Y}{p\left( \left. y \right|x \right)}\cdot \log _2p\left( \left. y \right|x \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}p\left( \left. y \right|x \right) \end{aligned}$

5.互信息

信息熵只能用于计算单个随机变量的信息量，为了量化随机变量之间的联系，需要引入互信息（Mutual Information）的概念。互信息表示两个随机变量间相关信息的多少，即：当观测一个随机变量时，另一个随机变量的不确定性减少了多少比特。给定两个随机变量 $X$ 和 $Y$ ，其联合概率密度 $p\left( x,y \right) =P\left( X=x,Y=y \right)$ 则 $X$ 和 $Y$ 之间的互信息 $I (X, Y)$ 的计算方式为：
$\begin{aligned} H\left( X \right) -H\left( X\left| Y \right. \right) &=-\sum_{x\in X}{p\left( x \right)}\cdot \log _2p\left( x \right) -\sum_{y\in Y}{p\left( y \right)}\cdot H\left( X\left| Y=y \right. \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( x \right) +\sum_{y\in Y}{p\left( y \right)}\sum_{x\in X}{p\left( x\left| y \right. \right)}·\log _2p\left( x\left| y \right. \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( x \right) +\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}\frac{p\left( x,y \right)}{p\left( y \right)} \\ &=\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}\frac{p\left( x,y \right)}{p\left( x \right) p\left( y \right)} \end{aligned}$

6.条件互信息

若存在一个已知的随机变量 $Z$ ，则随机变量 $X$ 和 $Y$ 在 $Z$ 已知的情况下的条件互信息(Conditiona Mutual Information) $I\left( \left. X,Y \right|Z \right)$ 计算方式为：
$I\left( \left. X;Y \right|Z \right) =\sum_{x\in X}{\sum_{y\in Y}{\sum_{z\in Z}{p\left( x,y,z \right)}}}·\log \frac{p\left( z \right) p\left( \left. x,y \right|z \right)}{p\left( x,z \right) p\left( y,z \right)}$ 或者
$I\left( \left. X;Y \right|Z \right) =\sum_{z\in Z}{p\left( z \right)}\sum_{x\in X}{\sum_{y\in Y}{p\left( \left. x,y \right|z \right)}}·\log \frac{p\left( \left. x,y \right|z \right)}{p\left( \left. x \right|z \right) p\left( \left. y \right|z \right)}$

7. 块熵

7.1 定义

“块熵”(Block Entropy)通常用于描述信息理论中的一种概念，特别是在压缩和编码方面。它是指将数据流划分为连续的块，并对每个块计算熵的过程。

在块熵中，数据流被分割成固定大小（ $k$ ）的块（或窗口），然后对每个块应用熵的计算方法。这有助于分析数据在不同块之间的变化或随时间的演变。一般的，当 $k$ 取 $1$ 时，块熵将退化为信息熵。
$H\left( X^{\left( k \right)} \right) =-\sum_{x_{i}^{\left( k \right)}}{p\left( x_{i}^{\left( k \right)} \right) \cdot}\log p\left( x_{i}^{\left( k \right)} \right)$ 在实际应用中，块熵可用于识别数据中的模式、周期性或其他结构，并有助于设计有效的压缩算法或数据处理方法。例如，在音频处理中，可以将音频信号划分为连续的时间窗口，并对每个窗口的信号进行熵计算，以了解音频信号的频谱特性或声音事件的分布。在网络数据传输中，块熵可以用于检测数据流中的重复模式或压缩数据以减少带宽消耗。

7.2 实例

假设有以下数字序列作为数据流： $\mathrm{data}\_\mathrm{stream}=[0, 1, 0, 0, 1, 1, 0, 1, 0, 1]$ 计算这个时间序列的块熵，其中 $k = 2$ 。
将时间序列分成长度为 $2$ 的历史块：
第一个历史块： [0, 1]
第二个历史块： [1, 0]
第三个历史块： [0, 0]
第四个历史块： [0, 1]
第五个历史块： [1, 1]
第六个历史块： [1, 0]
第七个历史块： [0, 1]
第八个历史块： [1, 0]
第九个历史块： [0, 1]
这些历史块的分布律为：

$X$	$\left[ 0,0 \right]$	$\left[ 0,1 \right]$	$\left[ 1,0 \right]$	$\left[ 1,1 \right]$
$P$	$\frac{1}{9}$	$\frac{4}{9}$	$\frac{3}{9}$	$\frac{1}{9}$

因此该序列的块熵为：
$H(X^{(2)})=-\left( \frac{1}{9}\log _2\frac{1}{9}+\frac{4}{9}\log _2\frac{4}{9}+\frac{3}{9}\log _2\frac{3}{9}+\frac{1}{9}\log _2\frac{1}{9} \right) =1.75272$

7.3 程序示例

from pyinform.blockentropy import block_entropy

data_stream = [0, 1, 0, 0, 1, 1, 0, 1, 0, 1]
block_entropy = block_entropy(data_stream, k=2)
print(block_entropy)

输出结果：

1.7527152789797045

8. 相对熵

8.1 定义

相对熵(Relative Entropy)，也称为KL散度(Kullback-Leibler Divergence)，是信息论中一种用于衡量两个概率分布之间差异的指标。它衡量的是当用一个概率分布来近似另一个概率分布时，产生的信息损失或额外的信息量，是两个概率分布间差异的非对称性度量。在信息理论中，相对熵等价于两个概率分布的信息熵的差值
给定两个离散概率分布 $P (x)$ 和 $Q (x)$ ，它们对应于事件或随机变量 $x$ ，相对熵的公式为：
$D_{KL}(P||Q)=\sum_{x\in X}{P(x)\cdot \log \frac{P(x)}{Q(x)}}$ 这个公式的直观解释是，对于每个事件 $x$ ，计算 $P (x)$ 与 $Q (x)$ 之间的差异，并用 $P (x)$ 的概率权重加权。如果 $P (x) = Q (x)$ ，则相对熵为 $0$ ，表示两个分布完全相同；否则，相对熵会大于 $0$ ，表示两个分布之间的差异程度。
在机器学习和统计学中，相对熵经常用于衡量模型预测分布与真实分布之间的差异，或者用于优化问题中的正则化项。

8.2 实例

假设有两个序列：
$4]\\ Y=[1, 1, 1, 1, 2, 2, 3, 4]$
则两个序列的分布律分别为：
$P(x)=\left[ \frac{1}{4},\frac{1}{4},\frac{1}{4},\frac{1}{4} \right] \\ \ \ \\ Q(y)=\left[ \frac{1}{2},\frac{1}{4},\frac{1}{8},\frac{1}{8} \right]$
则两者的相对熵为：
$\begin{aligned} D_{KL}(P||Q)&=\frac{1}{4}\log _2\frac{\frac{1}{4}}{\frac{1}{2}}+\frac{1}{4}\log _2\frac{\frac{1}{4}}{\frac{1}{4}}+\frac{1}{4}\log _2\frac{\frac{1}{4}}{\frac{1}{8}}+\frac{1}{4}\log _2\frac{\frac{1}{4}}{\frac{1}{8}} \\ &=\frac{1}{4}\log _2\frac{1}{2}+\frac{1}{4}\log _21+\frac{1}{4}\log _22+\frac{1}{4}\log _22 \\ &=\frac{1}{4} \end{aligned}$

8.3 程序示例

from pyinform.relativeentropy import relative_entropy

xs = [1, 1, 2, 2, 3, 3, 4, 4]
ys = [1, 1, 1, 1, 2, 2, 3, 4]
relative_entropy = relative_entropy(xs, ys)
print(relative_entropy)

输出结果：

0.25

9. 转移熵

转移熵(Transfer entropy)(也可译为传递熵)，是衡量两个随机过程之间有向（时间不对称）信息传递量的非参数统计量。过程 $X$ 到过程 $Y$ 的转移熵是指在给定过去值 $Y$ 得到过去值 $X$ 时， $Y$ 值不确定性的减少量。
随机变量 $X_t$ 的信息来源有两个：一是系统变量 $X$ 本身历史信息的贡献，二是系统中其他变量 $Y$ 的贡献。
$t$ 时刻，变量的值定义为： $X_t$ 、 $Y_t$
过去时间窗口 $\varDelta \omega$ 内的序列为： $Y_{t-\varDelta \omega :t-1}$
已知 $Y$ 的过去来推断 $Y$ 定义为： $H\left( \left. Y_t \right|Y_{t-\varDelta \omega :t-1} \right)$
已知 $X$ 的过去来推断 $X$ 定义为： $H\left( \left. X_t \right|X_{t-\varDelta \tau :t-1} \right)$
把已知 $X$ 的过去和 $Y$ 的过去来推断 $Y$ 定义为 $H\left( \left. Y_t \right|Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right)$
过程 $X$ 到过程 $Y$ 的转移熵是指在给定过去值 $Y$ 得到过去值 $X$ 时， $Y$ 值不确定性的减少量：
$\begin{aligned} T\left( X\rightarrow Y \right) &=H\left( \left. Y_t \right|Y_{t-\varDelta \omega :t-1} \right) -H\left( \left. Y_t \right|Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) \\ &=H\left( Y_t,Y_{t-\varDelta \omega :t-1} \right) -H\left( Y_{t-\varDelta \omega :t-1} \right) -H\left( Y_t,Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) +H\left( Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) \\ &=H\left( Y_t,Y_{t-\varDelta \omega :t-1} \right) +H\left( Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) -H\left( Y_{t-\varDelta \omega :t-1} \right) -H\left( Y_t,Y_{t-\varDelta \omega :t-1},X_{t-\varDelta \tau :t-1} \right) \\ &=\sum_{X_{\tau},Y_t,Y_{\omega}}{p}\left( X_{\tau},Y_t,Y_{\omega} \right) \cdot \log \frac{p\left( X_{\tau},Y_t,Y_{\omega} \right) p\left( Y_{\omega} \right)}{p\left( X_{\tau},Y_{\omega} \right) p\left( Y_t,Y_{\omega} \right)} \\ &=\sum_{X_{\tau},Y_t,Y_{\omega}}{p}\left( X_{\tau},Y_t,Y_{\omega} \right) \cdot \log \frac{p\left( Y_t\left| X_{\tau},Y_{\omega} \right. \right)}{p\left( Y_t\left| Y_{\omega} \right. \right)} \end{aligned}$

转移熵很好地刻画了系统中两个变量之间的信息流动，但是这样得到的信息流动有可能不是本质的，因为转移熵并没有考虑到冗余和协同作用。

10.关系推导

10.1 联合熵与条件熵关系

$H\left( \left. X \right|Y \right) =H\left( X,Y \right) -H\left( Y \right)$ 推导过程如下：
$\begin{aligned} H\left( \left. Y \right|X \right) &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}p\left( \left. y \right|x \right) =-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}\frac{p\left( x,y \right)}{p\left( y \right)} \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}p\left( x,y \right) +\sum_{y\in Y}{\left( \sum_{x\in X}{p\left( x,y \right)} \right)}·\log _2p\left( y \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}·\log _2}p\left( x,y \right) +\sum_{y\in Y}{p\left( y \right)}·\log _2p\left( y \right) \\ &=H\left( X,Y \right) -H\left( Y \right) \end{aligned}$ 同理可得：
$H\left( \left. Y \right|X \right) =H\left( X,Y \right) -H\left( X \right)$

10.2 互信息的对称性

$I\left( X;Y \right) =I\left( Y;X \right)$ 推导过程如下：
$\begin{aligned} H\left( X \right) -H\left( X\left| Y \right. \right) &=-\sum_{x\in X}{p\left( x \right)}\cdot \log _2p\left( x \right) -\sum_{y\in Y}{p\left( y \right)}\cdot H\left( X\left| Y=y \right. \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( x \right) +\sum_{y\in Y}{p\left( y \right)}\sum_{x\in X}{p\left( x\left| y \right. \right) \cdot}\log _2p\left( x\left| y \right. \right) \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( x \right) +\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}\frac{p\left( x,y \right)}{p\left( y \right)} \\ &=\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}\cdot \log _2}\frac{p\left( x,y \right)}{p\left( x \right) p\left( y \right)} \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( y \right) +\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right)}\cdot \log _2}\frac{p\left( x,y \right)}{p\left( x \right)} \\ &=-\sum_{x\in X}{\sum_{y\in Y}{p\left( x,y \right) \cdot}\log _2}p\left( y \right) +\sum_{x\in X}{p\left( x \right) \sum_{y\in Y}{p\left( \left. y \right|x \right)}\cdot \log _2}p\left( \left. y \right|x \right) \\ &=-\sum_{y\in Y}{p\left( y \right) \cdot \log _2}p\left( y \right) -\sum_{x\in X}{p}\left( x \right) \cdot H\left( Y\left| X=x \right. \right) \\ &=H\left( Y \right) -H\left( \left. Y \right|X \right) \end{aligned}$

10.3 联合熵与互信息关系

由7.1和7.2可得：
$H\left( \left. X \right|Y \right) =H\left( X,Y \right) -H\left( Y \right) =H\left( X \right) -I\left( X;Y \right)$ 于是：
$H\left( X,Y \right) =H\left( X \right) +H\left( Y \right) -I\left( X;Y \right)$ 上述关系还可由韦恩图给出：
在这里插入图片描述

参考文献

OlivePlum

关注

11
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
信息测度：信息熵、联合熵、条件熵、互信息、条件互信息、块熵、相对熵、转移熵

信息量是指从N个相等可能事件中选出一个事件所需要的信息度量或含量，也就是在辩识N个事件中特定的一个事件的过程中所需要提问是或否的最少次数。在一个系统中，等可能事件的数量越多，事件的发生概率也就越低，传递究竟是哪个事件发生所需的比特信号也就越多。举个例子，假如有两个相互隔离的房间A、B，二者只能通过01信号传递信息。当A房间投掷了一个硬币时，我们至少需要使用log221个比特信号告诉B房间是正面朝上还是反面朝上。类似地，当A房间投掷了一个有8个面的骰子时，我们至少需要log2。
复制链接

扫一扫