交叉熵基本概念

最新推荐文章于 2024-04-28 09:26:33 发布

小排_611

最新推荐文章于 2024-04-28 09:26:33 发布

阅读量2.8k

点赞数

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

语言模型的性能通常用交叉熵和复杂度（perplexity）来衡量。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值，以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。

假设现在有一个样本集中两个概率分布p,q，其中 p为真实分布， q为非真实分布。机器学习的目的就是使q尽可能的接近p，使交叉熵接近于0；

假如，按照真实分布p来衡量识别一个样本所需要的编码长度的期望为：

H(p)=

但是，如果采用错误的分布q来表示来自真实分布p的平均编码长度，则应该是：

H(p,q)=

此时就将H(p,q)称之为交叉熵。交叉熵的计算方式如下：

对于离散变量采用以下的方式计算：H(p,q)=

对于连续变量采用以下的方式计算：

交叉熵可在神经网络(机器学习)中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布， 交叉熵损失函数可以衡量p与q的

相似性。交叉熵作为损失函数还有一个好处是 使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以

被输出的误差所控制。

在特征工程中，可以用来衡量两个随机变量之间的相似度。

在语言模型中（NLP）中，由于真实的分布p是未知的，在语言模型中，模型是通过训练集得到的，交叉熵就是衡量这个模型在测试集上的正确率。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
交叉熵基本概念

语言模型的性能通常用交叉熵和复杂度（perplexity）来衡量。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值，以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。