本文将重点介绍与信息论相关的5个概念,分别是信息熵、条件熵、互信息、交叉熵以及相对熵。这5个概念在机器学习和深度学习中都被广泛应用。下面我们分别对这5个概念进行详细介绍。
1. 信息熵
首先,我们给出信息熵的定义:在概率论与数据统计中,熵(Entropy)表示随机变量不确定性的度量。设是一个取有限个值得离散随机变量,即是一离散型随机变量,其概率分布为:
则随机变量的信息熵定义为:
此处,取以2为底或者以为底。同时,在这里约定。根据熵的定义,我们可以发现熵的大小只与的分布有关,而跟的取值并无任何关系。
信息熵越大,包含的信息就越多,那么随机变量的不确定行就越大。例如,假设随机变量服从概率为的伯努利分布,即概率分布为:
熵为:
最大熵定理:当离散随机变量的概率分布是等概率分布时,取最大值,结果为,其中表示随机变量有不同的取值。
2. 条件熵
假设有二维随机变量 ,其联合概率密度为:
条件熵表示在已知随机变量的条件下,随机变量的不确定性,条件熵为:
从感知角度出发,条件熵的值要比信息熵的值要小(随机变量与随机变量要相关),因为当我们有了更多的背景知识时,信息的不确定性自然也就会下降。
定理:对二维随机变量,条件熵和信息熵满足如下关系
证:
当随机变量与随机变量相互独立时,,从感知角度上来说,随机变量对理解随机变量没有任何帮助,没有消除不确定性。
3. 互信息
互信息,即在决策树章节中的信息增益,是描述两个随机变量之间的相关程度,也就是给定一个随机变量后,另外一个随机变量不确定性的削弱程度,互信息为:
综合信息熵与条件熵,我们可以发现互信息具有如下几个性质:
因为,所以
当随机变量与随机变量完全相关时,条件熵,此时
当随机变量与随机变量完全无关时,条件熵,此时
在决策树算法中,信息增益被用来作为特征选取的一种度量指标,给定训练数据集,每个数据集都由维特征构成,在构建决策树时,最为核心的问题是选取哪一维特征来划分数据集?每一个特征可以看成是一个随机变量,维特征可以记为。
一种合理的特征选择方案为:分别计算,计算第维特征与训练数据集的相关性,越大,说明第维特征与训练数据集越无关,也就是第维特征的数据包含数据集的信息更多。
4. 相对熵和交叉熵
机器学习与深度学习的目的归结为尽量准确的学习数据间的变量关系,还原样本数据的概率分布。相对熵和交叉熵正式衡量概率分布或者函数之间的相似性度量;
设有随机变量,其真实概率分布为,通过模型训练得到的概率分布为,下面分析如何通过交叉熵和相对熵来衡量和的相似性。
- 相对熵
相对熵,也就是KL散度,定义为:
KL散度具有如下性质:
- 相对熵不是传统意义上的“距离”,这是因为相对熵不具有对称性,即 ;
- 当预测概率分布与真实概率分布完全相同的时,相对熵;
- 如果两个的分布差异越大,那么相对熵越大;反之,两个分布的差异越小,那么相对熵越小;
- 相对熵满足非负性,即;
证明第4点性质:由吉布斯不等式可知,当时,恒成立;
证明如下:
根据性质3和性质4可知,相对熵可以度量两个分布的相似性。
- 交叉熵
交叉熵,定义为:
其中表示随机变量的信息熵, ,由于真实样本分布是一个固定值,因此是一个不变量,所以:
化简式子可得:
总结:从公式可以发现,交叉熵与相对熵存在一定的等价关系,相对熵的性质对于交叉熵同样适用。因此,一般采用交叉熵来度量两个分布的相似性;