交叉熵的简单介绍

最新推荐文章于 2024-08-09 13:44:55 发布

小木月生

最新推荐文章于 2024-08-09 13:44:55 发布

阅读量970

点赞数

分类专栏： AI

本文链接：https://blog.csdn.net/YCHANTY/article/details/81952803

版权

AI 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

介绍

交叉熵（Cross Entropy）主要用于度量两个概率分布间的差异性信息。语言模型的性能通常用交叉熵和复杂度（perplexity）来衡量。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值，以保证词序列总能通过语言模型得到一个概率值。

在信息论中，交叉熵是表示两个概率分布p,q，其中p表示真实分布，q表示非真实分布，在相同的一组事件中，其中，用非真实分布q来表示某个事件发生所需要的平均比特数。从这个定义中，我们很难理解交叉熵的定义。下面举个例子来描述一下：
假设现在有一个样本集中两个概率分布p,q，其中p为真实分布，q为非真实分布。假如，按照真实分布p来衡量识别一个样本所需要的编码长度的期望为：
H(p)= -∑p(i)log (p(i))
但是，如果采用错误的分布q来表示来自真实分布p的平均编码长度，则应该是：
H(p,q)= -∑p(i)log (q(i))
此时就将H(p,q)称之为交叉熵。交叉熵的计算方式如下：
对于离散变量采用以下的方式计算：H(p,q)= H(p,q)= -∑p(i)log (q(i))
对于连续变量采用以下的方式计算：
交叉熵越小，模型的输出就越接近真实的概率分布．

应用

交叉熵可在支持向量机、神经网络中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量p与q的相似性。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。
在特征工程中，可以用来衡量两个随机变量之间的相似度。
在语言模型中（NLP）中，由于真实的分布p是未知的，在语言模型中，模型是通过训练集得到的，交叉熵就是衡量这个模型在测试集上的正确率。

算例

假设，对应两分类的逻辑回归模型logistic regression来说，他的结果有两个0或者1，在给定预测向量x，通过logistics regression回归函数g(z)=1/(1+e-z),则真实结果y=1,对应预测结果y’=g(wx)；真实结果y=0，对应预测结果y’=1-g(wx);以上就是通过g(wx)和1-g(wx)来描述原数据集0-1分布。根据交叉熵的定义可知：
这里写图片描述
上式是针对测试集一个样本得到的交叉熵。若测试集有N个样本，对应的交叉熵损失函数表示方式如下：