主要整理自维基百科,添加了一些在机器学习中的应用。
熵:
在信息论中,熵(英语:entropy)是接收的每条消息中包含的信息的平均量,又被称为信息熵、信源熵、平均自信息量。
主要衡量不确定性的度量,越随机的信息熵越大,想法来源于不可能发生的事发生时会提供更多的信息。所以信息熵定义为概率分布的对数的相反数有这方面的体现。
随机变量的熵值定义为:.
注:此处E为期望函数,为概率质量函数(离散随机变量而言随机变量取某个值的概率,类似于连续性随机变量的概率密度函数PDF),是的信息量,又称为自信息,及表示的信息量。体现了越不可能发生的事情发生时蕴含的信息更多。
联合熵:
联合熵是一集随机变量之间不确定性的衡量手段。
两个随机变量和的联合熵定义为:.对于多个随机变量的联合熵也可以类似定义。
性质:
条件熵:
条件熵描述了在已知第二个随机变量的条件下,随机变量的信息熵还有多少。基于条件的的信息熵,用表示。
条件熵的贝叶斯公式:
互信息:
概率论或信息论中,两个随机变量的互信息或转移信息是变量相互依赖的量度。不同于相关系数,互信息并不局限于实数值随机变量,它更加一般且决定着联合分布P(X,Y)和分解的边缘分布的乘积P(X)P(Y)的相似度。
一般地,两个随机变量X和Y的互信息如下定义:
连续性随机变量是求和符号被积分符号替代。
互信息是X和Y的联合分布对于假定的X和Y独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性:当且仅当X和Y为独立随机变量。当X和Y独立时,,log函数此时为0.
依据互信息的定义,互信息又可以等价表示成如下形式:
交叉熵:
在信息论中,基于相同事件测度的两个概率分布p和q的交叉熵是指,当基于一个“非自然”的概率分布q(真实分布p)进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数。
基于概率分布p和q的交叉熵定义为:
对于离散分布的p和q,这意味着:
在大多数情况下,我们需要在不知道分布的情况下计算其交叉熵。例如在语言模型中, 我们基于训练集创建了一个语言模型, 而在测试集合上通过其交叉熵来评估该模型的准确率。是语料中词汇的真实分布,而是我们获得的语言模型预测的词汇分布。由于真实分布是未知的,我们不能直接计算交叉熵。在这种情况下,我们可以通过下式来估计交叉熵:
是测试集大小,是在训练集上估计的事件发生的概率。我们假设训练集是从的真实采样,则此方法获得的是真实交叉熵的蒙特卡洛估计。
交叉熵经常作为机器学习中分类问题的损失函数。
相对熵:
相对熵又称KL散度,信息散度,信息增益,是两个概率分布P和Q的差别的度量,它是非对称的,及P到Q的度量和Q到P的度量是不相等的,具体下面公式有直观的体现。这里P经常表示数据的真实分布,而Q则表示数据的理论分布,或模型分布,p的近似分布。
离散随机变量,其概率分布P和Q的KL散度可按下列定义为
连续随机变量:
性质:
相对熵值为非负数:即,当且仅当时取等号。
KL散度具有非对称性:即
KL散度和其他量的关系:
自信息和KL散度的关系
互信息和KL酸度的关系
条件熵和KL散度的关系
交叉熵和KL散度:
在机器学习中的应用,经常用来衡量对于同一个事件模型分布和真实分布的近似程度。如在VAE中的应用等。