信息论基本概念

最新推荐文章于 2022-05-31 16:25:38 发布

橙子味的狸

最新推荐文章于 2022-05-31 16:25:38 发布

阅读量2k

点赞数

本文链接：https://blog.csdn.net/czw1907554138/article/details/100581232

版权

熵

首先介绍信息论中最基本的概念：熵。
如果X是一个离散型随机变量，其取值空间为R，其概率分布为p(x)=P(X=x)，x∈R。那么，X的熵H(X)定义为：
在这里插入图片描述
该公式中对数以2为底，所以此时熵的单位为比特，除了以2为底以外，还可以以自然对数、10为底，单位分别为奈特、哈特，通常以2为底居多。
熵又称为自信息(self-information)，可以视为描述一个随机变量的不确定性的数量。它表示信源X每发一个信号(不论发什么信号)所提供的平均信息量。一个随机变量的熵越大，它的不确定性就越大，那么正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。通俗一点说，你了解一件事情所要知道的东西越多，这件事情的信息熵就越大。

联合熵和条件熵

如果X,Y是一对离散型随机变量X,Y~p(x,y)，X,Y的联合熵H(X,Y)定义为：
在这里插入图片描述
联合熵实际上就是描述一对随机变量平均所需要的信息量。
给定随机变量X的情况下，随机变量Y的条件熵定义为：

将联合熵式中的logp(x,y)展开，可得：

互信息

根据熵的连锁规则，有
在这里插入图片描述
这个差叫做X和Y的互信息(mutual information,MI),记做I(X;Y)，反映的是在知道了Y的值以后X的不确定性的减少量。可以理解为Y的值透露了多少关于X的信息量。

相对熵

相对熵又称Kullback-Leibler差异或简称KL距离，是衡量相同事件空间里两个概率分布相对差距的测度。两个概率分布p(x)和q(x)的相对熵定义为：
在这里插入图片描述
该定义中约定0log(0/q)=0,plog(p/0)=∞。表示成期望值为

显然，当两个随机分布完全相同时，p=q，其相对熵为0。当两个随机分布的差别增加时，其相对熵期望值也增大。

交叉熵

根据前面熵的定义，知道熵是一个不确定性的测度，也就是说，我们对于某件事情知道得越多，熵越小，交叉熵的概念就是用来衡量估计模型与真实概率分布之间差异情况的。
如果一个随机变量X~p(x)，q(x)为用于近似p(x)的概率分布，那么，随机变量X和模型q之间的交叉熵定义为：
在这里插入图片描述

困惑度

在设计语言模型时，我们通常用困惑度来代替交叉熵衡量语言模型的好坏。给定语言L的样本L=L1+L2+…Ln，L的困惑度PPq定义为
在这里插入图片描述
同样，语言模型设计的任务就是寻找困惑度最小的模型，使其最接近真实语言的情况。在自然语言处理中，我们所说的语言模型的困惑度通常是指语言模型对于测试数据的困惑度。一般情况下将所有数据分为两部分，一部分作为训练数据，用于估计模型的参数；另一部分作为测试数据，用于评估语言模型的质量。