信息论相关概念

最新推荐文章于 2022-05-31 16:25:38 发布

caicaiatnbu

最新推荐文章于 2022-05-31 16:25:38 发布

阅读量871

点赞数

本文链接：https://blog.csdn.net/caicaiatnbu/article/details/84654371

版权

深度学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本文将重点介绍与信息论相关的5个概念，分别是信息熵、条件熵、互信息、交叉熵以及相对熵。这5个概念在机器学习和深度学习中都被广泛应用。下面我们分别对这5个概念进行详细介绍。

1. 信息熵

首先，我们给出信息熵的定义：在概率论与数据统计中，熵（Entropy）表示随机变量不确定性的度量。设是一个取有限个值得离散随机变量，即是一离散型随机变量，其概率分布为：

$\large P(X=x_{k})=p_{k}, k=1,2,...,k$

则随机变量的信息熵定义为：

$\large H(X)=-\sum_{i=1}^{n}p_{i}*logp_{i}$

此处， $\large log$ 取以2为底或者以 $\large e$ 为底。同时，在这里约定 $\large 0*log0 = 0$ 。根据熵的定义，我们可以发现熵的大小只与的分布有关，而跟的取值并无任何关系。

信息熵越大，包含的信息就越多，那么随机变量的不确定行就越大。例如，假设随机变量服从概率为 $\large p$ 的伯努利分布，即概率分布为：

$\large P(X=1)=p, \quad P(x=0)=1-p,\quad 0\leqslant p< 1$

熵为：

$\large H(X)=-p*logp-(1-p)*log(1-p)$

最大熵定理：当离散随机变量的概率分布是等概率分布时， $\large H(X)$ 取最大值，结果为 $\large logn$ ，其中 $\large n$ 表示随机变量 $\large X$ 有 $\large n$ 不同的取值。

2. 条件熵

假设有二维随机变量 $\large (X, Y)$ ，其联合概率密度为：

$\large p(X=x_{i},Y=y_{j})=p_{ij},\quad i=1,2,...,n;\;j=1,2,..,m$

条件熵表示在已知随机变量 $\large X$ 的条件下，随机变量 $\large Y$ 的不确定性，条件熵为：

$\large H(Y|X)=-\sum_{i=1}^{n}\sum_{j=1}^{m}p(X=x_{i},Y=y_{j})*logp(Y=y_{j}|X=x_{i})$

从感知角度出发，条件熵的值要比信息熵的值要小（随机变量 $\large X$ 与随机变量 $\large Y$ 要相关），因为当我们有了更多的背景知识时，信息的不确定性自然也就会下降。

定理：对二维随机变量 $\large (X, Y)$ ，条件熵 $\large H(Y| X)$ 和信息熵 $\large H(Y)$ 满足如下关系

$\large H(Y| X)\leq H(Y)$

证： $H(Y|X)=-\sum_{i=1}^{n}\sum_{j=1}^{m}p(X=x_{i},Y=y_{j})*logp(Y=y_{j}|X=x_{i})$

$=-\sum_{i=1}^{n}p(X=x_{i})[\sum_{j=1}^{m}p(Y=y_{j}|X=x_{i})*logp(Y=y_{j}|X=x_{i})]$

$\leq -\sum_{i=1}^{n}p(X=x_{i})[\sum_{j=1}^{m}p(Y=y_{j}|X=x_{i})*logp(Y=y_{j})]$

$=-\sum_{j=1}^{m}[\sum_{i=1}^{n}p(Y=y_{j}|X=x_{i})*p(X=x_{i})]*logp(Y=y_{j})$

$=-\sum_{j=1}^{m}p(Y=y_{j})*logp(Y=y_{j})$

$\large =H(Y)$

当随机变量与随机变量相互独立时， $\large H(Y| X)= H(Y)$ ，从感知角度上来说，随机变量对理解随机变量没有任何帮助，没有消除不确定性。

3. 互信息

互信息，即在决策树章节中的信息增益，是描述两个随机变量之间的相关程度，也就是给定一个随机变量后，另外一个随机变量不确定性的削弱程度，互信息为：

$\large I(X,Y)=H(Y)-H(Y|X)$

综合信息熵与条件熵，我们可以发现互信息具有如下几个性质：

因为 $\large H(Y| X)\leq H(Y)$ ，所以 $\large 0\leq I(X,Y)\leq H(Y)$

当随机变量与随机变量完全相关时，条件熵 $\large H(Y|X)=0$ ，此时 $\large I(X,Y)=H(Y)-H(Y|X)=H(Y)$

当随机变量与随机变量完全无关时，条件熵 $\large H(Y|X)=H(Y)$ ，此时 $\large I(X,Y)=H(Y)-H(Y|X)=0$

在决策树算法中，信息增益被用来作为特征选取的一种度量指标，给定训练数据集 $\large D$ ，每个数据集都由 $\large n$ 维特征构成，在构建决策树时，最为核心的问题是选取哪一维特征来划分数据集？每一个特征可以看成是一个随机变量， $\large n$ 维特征可以记为 $\large \left ( X_{1},X_{2},...,X_{n} \right )$ 。

一种合理的特征选择方案为：分别计算 $\large I\left ( D,X_{i} \right )$ ，计算第 $\large i$ 维特征与训练数据集 $\large D$ 的相关性， $\large I\left ( D,X_{i} \right )$ 越大，说明第 $\large i$ 维特征与训练数据集 $\large D$ 越无关，也就是第 $\large i$ 维特征的数据包含数据集 $\large D$ 的信息更多。