关于seq2seq模型loss使用交叉熵具体是如何计算的

小小小菜鸟一只

已于 2024-06-22 22:58:23 修改

阅读量347

点赞数 5

分类专栏： NLP 文章标签：算法人工智能

于 2024-06-03 21:34:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62965652/article/details/138120315

版权

NLP 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

众所周知，encoder的输出是[N,T,vocab_size]，vocab_size表示词表中每个单词的置信度。

在计算loss时我们的目标y和单词置信度的矩阵y帽又是如何进行交叉熵计算的呢？

下面我会使用一个例子来演示这个过程；

首先交叉熵的公式为：
loss = -sum(weight * y * log(y_hat))
其中:

weight是一个可选的序列权重向量,可用于缓解过短/过长句子的影响
y是真实目标序列,是一个one-hot向量
y_hat是模型输出的概率分布矩阵
y * log(y_hat)是对真实目标在概率矩阵中对应位置的对数概率取负值

假设我们有:

词表大小为5
目标序列 y = [[0, 1, 0, 0, 0], [0, 0, 0, 1, 0]]
模型输出概率矩阵 y_hat = [
[0.1, 0.6, 0.1, 0.1, 0.1],
[0.2, 0.1, 0.2, 0.4, 0.1]
]
暂时不考虑权重系数weights

首先,我们根据公式对每个时间步进行计算:

时间步1:

y = [0, 1, 0, 0, 0]
y * log(y_hat) = [0, -0.51, 0, 0, 0]

y * log(y_hat)的计算过程为:

先计算log(y_hat)
log(y_hat) = [log(0.1), log(0.6), log(0.1), log(0.1), log(0.1)]
= [-2.30, -0.51, -2.30, -2.30, -2.30]
再与y进行元素乘积
y * log(y_hat) = [0, 1, 0, 0, 0] * [-2.30, -0.51, -2.30, -2.30, -2.30]
= [0 * -2.30, 1 * -0.51, 0 * -2.30, 0 * -2.30, 0 * -2.30]
= [0, -0.51, 0, 0, 0]

时间步2:

y = [0, 0, 0, 1, 0]
y * log(y_hat) = [0, 0, 0, -0.92, 0] （过程同理）

然后,我们对所有时间步的结果求和:

loss = -sum(y * log(y_hat))
= -([0, -0.51, 0, 0, 0] + [0, 0, 0, -0.92, 0])
= -(-0.51 - 0.92)
= 1.43

可以看到,我们先用y(one-hot向量)与log(y_hat)做元素乘积,得到每个单词对应的负对数概率。
然后对所有时间步的负对数概率求和,得到整个序列的交叉熵损失值1.43。

这就是公式 loss = -sum(weight * y * log(y_hat)) 在序列到序列模型中的具体应用。

通过最小化这个交叉熵损失值,模型可以学习输出越来越接近真实目标序列的概率分布。

小小小菜鸟一只

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
关于seq2seq模型loss使用交叉熵具体是如何计算的

seq2seq模型loss使用交叉熵是如何计算的
复制链接

扫一扫

专栏目录

小小小菜鸟一只 CSDN认证博客专家 CSDN认证企业博客

码龄3年

12: 原创

30万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

329: 积分

260: 粉丝

192: 获赞

5: 评论

165: 收藏

私信

关注

热门文章

分类专栏

NLP 11篇
numpy 2篇

最新评论

Word2vec详解（附Gensim代码）
2301_79201419: 求完整代码
numpy中where()
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
NLP的第一步：如何将文本变为embedding输入向量[N,T]
小小小菜鸟一只: 请问您指的是torch.nn.Embedding吗？其实embedding的本质就是一个神经网络，通过训练将单词放到特征空间中对应的位置。所以很明显只要是nn.Embedding都是相同的做法。而embedding其实只是word2vec的一种方式。
NLP的第一步：如何将文本变为embedding输入向量[N,T]
卫永康: 请问在NLP任务中，embedding层通常是如何实现的？用word2vec吗?是所有任务都采用一样的做法还是像分词一样根据自己的情况选择不同的方法？
Optimizer优化器发展从SGD到Adam(W)及其对比 (附Pytorch代码)
CSDN-Ada助手: 恭喜您第6篇博客的发布！对Optimizer优化器进行详细的讲解和对比，对读者来说一定是非常有帮助的。希望您能继续坚持创作，不断分享有价值的内容。或许接下来可以考虑深入探讨不同优化器在不同场景下的应用效果，或者结合实际案例进行分析，给读者带来更多实用的经验和启发。期待您更多精彩的文章！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。