信息熵的相关概念和在机器学习中的应用

最新推荐文章于 2024-01-10 02:32:59 发布

YangHongChao001

最新推荐文章于 2024-01-10 02:32:59 发布

阅读量2.7k

点赞数 1

分类专栏：机器学习统计模型

本文链接：https://blog.csdn.net/Modern_Times/article/details/89737090

版权

机器学习统计模型专栏收录该内容

9 篇文章 1 订阅

订阅专栏

主要整理自维基百科，添加了一些在机器学习中的应用。

熵：

在信息论中，熵（英语：entropy）是接收的每条消息中包含的信息的平均量，又被称为信息熵、信源熵、平均自信息量。

主要衡量不确定性的度量，越随机的信息熵越大，想法来源于不可能发生的事发生时会提供更多的信息。所以信息熵定义为概率分布的对数的相反数有这方面的体现。

随机变量 $X\in \{x_1,x_2,\dots,x_n\}$ 的熵值定义为： $H(X) = E[I(X)] = E[-ln(P(X))]$ .

注：此处E为期望函数， $P(X)$ 为概率质量函数（离散随机变量而言随机变量取某个值的概率，类似于连续性随机变量的概率密度函数PDF）， $I(X)$ 是的信息量，又称为自信息，及 $-ln(P(X))$ 表示的信息量。体现了越不可能发生的事情发生时蕴含的信息更多。

联合熵：

联合熵是一集随机变量之间不确定性的衡量手段。

两个随机变量和的联合熵定义为： $H(X,Y) = -\sum_{x}\sum_{y}P(X,Y)log_2[P(X,Y)]$ .对于多个随机变量的联合熵也可以类似定义。

性质：

$\begin{align*} H(X,Y) \geq max[H(X), H(Y)]\\ H(X_1,X_2, \dots,X_n) \geq max[H(X_1),\dots, H(X_n)]\\ H(X,Y) \leq H(X) + H(Y) \\ H(X_1,X_2, \dots, X_n) \leq H(X_1) + H(X_2) + \dots + H(X_n) \end{align*}$

条件熵：

条件熵描述了在已知第二个随机变量的条件下，随机变量的信息熵还有多少。基于条件的的信息熵，用 $H(Y\left|X)$ 表示。

$\begin{align*} H(Y|X) &= \sum\limits_{x\in X }p(x)H(Y|X=x)\\ &= \sum\limits_{x\in X, y\in Y}p(x,y)\log\frac{p(x)}{p(x,y))} \\ &= -\sum\limits_{x\in X, y\in Y}p(x,y)\log {p(x,y)} + \sum\limits_{x\in X}p(x)\log p(x)\\ & = H(X, Y) - H(X) \end{align*}$

条件熵的贝叶斯公式：

$H(Y\left |X)=H(X\left|Y) - H(X) + H(Y)$

互信息：

概率论或信息论中，两个随机变量的互信息或转移信息是变量相互依赖的量度。不同于相关系数，互信息并不局限于实数值随机变量，它更加一般且决定着联合分布P(X,Y)和分解的边缘分布的乘积P(X)P(Y)的相似度。

一般地，两个随机变量X和Y的互信息如下定义：

$I(X;Y) = \sum\limits_{y\in Y}\sum\limits_{x \in X} p(x,y)\,\log \left ( \frac{p(x,y)}{p(x)p(y)} \right )$

连续性随机变量是求和符号被积分符号替代。

互信息是X和Y的联合分布对于假定的X和Y独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性： I(X;Y) =0 当且仅当X和Y为独立随机变量。当X和Y独立时， $p(x,y) = p(x)p(y)$ ,log函数此时为0.

依据互信息的定义，互信息又可以等价表示成如下形式：

$\begin{align*} I(X;Y) &= H(X ) - H(X|Y) \\ &=H(Y) - H(Y|X) \\ &= H(X) + H(Y) - H(X, Y) \\ &= H(X, Y) - H(X|Y) - H(Y|X) \end{align*}$

交叉熵：

在信息论中，基于相同事件测度的两个概率分布p和q的交叉熵是指，当基于一个“非自然”的概率分布q（真实分布p）进行编码时，在事件集合中唯一标识一个事件所需要的平均比特数。

基于概率分布p和q的交叉熵定义为：

$H(p,q) = E_{p}[-\log{q}] = H(p) + D_{KL}(p ||q)$

对于离散分布的p和q，这意味着：

$H(p,q) = - \sum\limits_{x} p(x) \log q(x)$

在大多数情况下，我们需要在不知道分布 $p$ 的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集 $T$ 创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。 $p$ 是语料中词汇的真实分布，而 $q$ 是我们获得的语言模型预测的词汇分布。由于真实分布是未知的，我们不能直接计算交叉熵。在这种情况下，我们可以通过下式来估计交叉熵:

$H(T,q)= - \sum\limits_{i=1}^{N} \frac{1}{N} \log_2 q(x_i)$

$N$ 是测试集大小， $q(x)$ 是在训练集上估计的事件 $x$ 发生的概率。我们假设训练集是从 $p(x)$ 的真实采样，则此方法获得的是真实交叉熵的蒙特卡洛估计。

交叉熵经常作为机器学习中分类问题的损失函数。

相对熵：

相对熵又称KL散度，信息散度，信息增益，是两个概率分布P和Q的差别的度量，它是非对称的，及P到Q的度量和Q到P的度量是不相等的，具体下面公式有直观的体现。这里P经常表示数据的真实分布，而Q则表示数据的理论分布，或模型分布，p的近似分布。

离散随机变量，其概率分布P和Q的KL散度可按下列定义为

$\begin{align*} D_{KL} (P\|Q) &= -\sum\limits_{i} P(i)\ln\frac{Q(i)}{P(i)} \\ &= -\sum\limits_{i}P(i)\ln Q(i) + \sum\limits_{i}P(i)\ln P(i) \end{align*}$