信息论相关概念

本文将重点介绍与信息论相关的5个概念,分别是信息熵、条件熵、互信息、交叉熵以及相对熵。这5个概念在机器学习和深度学习中都被广泛应用。下面我们分别对这5个概念进行详细介绍。

1. 信息熵

首先,我们给出信息熵的定义:在概率论与数据统计中,熵(Entropy)表示随机变量不确定性的度量。设X是一个取有限个值得离散随机变量,即X是一离散型随机变量,其概率分布为: 

 \large P(X=x_{k})=p_{k}, k=1,2,...,k

则随机变量X的信息熵定义为:

\large H(X)=-\sum_{i=1}^{n}p_{i}*logp_{i}

此处,\large log取以2为底或者以\large e为底。同时,在这里约定\large 0*log0 = 0。根据熵的定义,我们可以发现熵的大小只与X的分布有关,而跟X的取值并无任何关系。

信息熵越大,包含的信息就越多,那么随机变量的不确定行就越大。例如,假设随机变量X服从概率为\large p的伯努利分布,即概率分布为:

\large P(X=1)=p, \quad P(x=0)=1-p,\quad 0\leqslant p< 1

熵为:

\large H(X)=-p*logp-(1-p)*log(1-p)

 

最大熵定理:当离散随机变量的概率分布是等概率分布时,\large H(X)取最大值,结果为\large logn,其中\large n表示随机变量\large X\large n不同的取值。

2. 条件熵

假设有二维随机变量\large (X, Y) ,其联合概率密度为:

\large p(X=x_{i},Y=y_{j})=p_{ij},\quad i=1,2,...,n;\;j=1,2,..,m

条件熵表示在已知随机变量\large X的条件下,随机变量\large Y的不确定性,条件熵为:

\large H(Y|X)=-\sum_{i=1}^{n}\sum_{j=1}^{m}p(X=x_{i},Y=y_{j})*logp(Y=y_{j}|X=x_{i})

从感知角度出发,条件熵的值要比信息熵的值要小(随机变量\large X与随机变量\large Y要相关),因为当我们有了更多的背景知识时,信息的不确定性自然也就会下降。

定理:对二维随机变量\large (X, Y),条件熵\large H(Y| X)和信息熵\large H(Y)满足如下关系

                          \large H(Y| X)\leq H(Y)

证:H(Y|X)=-\sum_{i=1}^{n}\sum_{j=1}^{m}p(X=x_{i},Y=y_{j})*logp(Y=y_{j}|X=x_{i})

                       =-\sum_{i=1}^{n}p(X=x_{i})[\sum_{j=1}^{m}p(Y=y_{j}|X=x_{i})*logp(Y=y_{j}|X=x_{i})]

                       \leq -\sum_{i=1}^{n}p(X=x_{i})[\sum_{j=1}^{m}p(Y=y_{j}|X=x_{i})*logp(Y=y_{j})]

                      =-\sum_{j=1}^{m}[\sum_{i=1}^{n}p(Y=y_{j}|X=x_{i})*p(X=x_{i})]*logp(Y=y_{j})

                     =-\sum_{j=1}^{m}p(Y=y_{j})*logp(Y=y_{j})

                    \large =H(Y)

当随机变量X与随机变量Y相互独立时,\large H(Y| X)= H(Y),从感知角度上来说,随机变量X对理解随机变量Y没有任何帮助,没有消除不确定性。

3. 互信息

互信息,即在决策树章节中的信息增益,是描述两个随机变量之间的相关程度,也就是给定一个随机变量X后,另外一个随机变量Y不确定性的削弱程度,互信息为:

 \large I(X,Y)=H(Y)-H(Y|X)

综合信息熵与条件熵,我们可以发现互信息具有如下几个性质:

因为\large H(Y| X)\leq H(Y),所以\large 0\leq I(X,Y)\leq H(Y)

当随机变量X与随机变量Y完全相关时,条件熵\large H(Y|X)=0,此时\large I(X,Y)=H(Y)-H(Y|X)=H(Y)

当随机变量X与随机变量Y完全无关时,条件熵\large H(Y|X)=H(Y),此时\large I(X,Y)=H(Y)-H(Y|X)=0

在决策树算法中,信息增益被用来作为特征选取的一种度量指标,给定训练数据集\large D,每个数据集都由\large n维特征构成,在构建决策树时,最为核心的问题是选取哪一维特征来划分数据集?每一个特征可以看成是一个随机变量,\large n维特征可以记为\large \left ( X_{1},X_{2},...,X_{n} \right )

一种合理的特征选择方案为:分别计算\large I\left ( D,X_{i} \right ),计算第\large i维特征与训练数据集\large D的相关性,\large I\left ( D,X_{i} \right )越大,说明第\large i维特征与训练数据集\large D越无关,也就是第\large i维特征的数据包含数据集\large D的信息更多。

4. 相对熵和交叉熵

机器学习与深度学习的目的归结为尽量准确的学习数据间的变量关系,还原样本数据的概率分布。相对熵和交叉熵正式衡量概率分布或者函数之间的相似性度量;

设有随机变量X,其真实概率分布为p(x),通过模型训练得到的概率分布为q(x),下面分析如何通过交叉熵和相对熵来衡量p(x)q(x)的相似性。

  • 相对熵

相对熵,也就是KL散度,定义为:

KL(p(x)||q(x))=\sum_{x\in X}p(x)* \log \frac{p(x)}{q(x)}

KL散度具有如下性质:

  1. 相对熵不是传统意义上的“距离”,这是因为相对熵不具有对称性,即 KL(p(x)||q(x))\neq KL(q(x)||p(x))
  2. 当预测概率分布q(x)与真实概率分布p(x)完全相同的时,相对熵KL(p(x)||q(x))=0
  3. 如果两个的分布差异越大,那么相对熵越大;反之,两个分布的差异越小,那么相对熵越小;
  4. 相对熵满足非负性,即KL(p(x)||q(x))\geq 0

证明第4点性质:由吉布斯不等式可知,当x> 0时,\log_{2}x\leq x-1恒成立;

证明如下: 

KL(p(x)||q(x))=\sum_{x\in X}p(x)* \log \frac{p(x)}{q(x)}=-\sum_{x \in X} \log\frac{q(x)}{p(x)}

                            \geq -\sum_{x \in X}p(x)*(\frac{q(x)}{p(x)}-1)=-\sum_{x \in X}p(x)*(\frac{q(x)}{p(x)}-1)

                            =- \left [\sum_{x \in X}p(x) - \sum_{x \in X}q(x) \right ]=0

根据性质3和性质4可知,相对熵可以度量两个分布的相似性。

  • 交叉熵

交叉熵,定义为:

H(p(x),q(x))=H(x)+KL(p(x)||q(x))

其中H(x)表示随机变量X的信息熵, H(x)=-\sum_{x\in X}p(x)*\log p(x),由于真实样本分布p(x)是一个固定值,因此H(x)是一个不变量,所以:

H(p(x),q(x))\propto KL(p(x)||q(x))

化简式子可得:

 H(p(x),q(x))=H(x)+KL(p(x)||q(x))

                         =-\sum_{x\in X}p(x)*\log p(x)+\sum_{x\in X}p(x)*( \log p(x) - \log q(x))

                         =-\sum_{x \in X}p(x)*\log q(x)

总结:从公式可以发现,交叉熵与相对熵存在一定的等价关系,相对熵的性质对于交叉熵同样适用。因此,一般采用交叉熵来度量两个分布的相似性;

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值