从交叉熵角度理解困惑度（perplexity）

最新推荐文章于 2025-02-03 11:08:44 发布

Training.L

最新推荐文章于 2025-02-03 11:08:44 发布

阅读量4.5k

点赞数 10

分类专栏：深度学习文章标签：困惑度交叉熵损失函数语言模型性能评估

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41775769/article/details/121796159

版权

从交叉熵理解困惑度

我们通常使用困惑度（perplexity）来评价语言模型的好坏。通过理解困惑度，也可以让我们更加深入的理解交叉熵（CrossEntropy）的意义，也可以轻易量化模型的性能。

回顾交叉熵以及多分类问题的损失函数。假设现有 $N$ 个数据样本，其中样本的标签为 $Y_i(i=1,2,\cdots,N)$ ，而模型对样本的预测值记为 $\widehat{Y_i}(i=1,2,\cdots,N)$ ，则我们可以计算交叉熵损失：
$CrossEntropy(Y,\widehat{Y})=-\sum_{i=1}^NY_{i}log(\widehat{Y}_i)$

这个公式并不那么直观，我们再从一个更加具体的例子来体会一下交叉熵损失的计算过程。

在多分类问题中， $Y_i$ 表示的是一个独热编码(0-1类别)的向量，比如对于三分类的某一个样本标签为：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。