Transformer中的encoder和decoder在训练和推理过程中究竟是如何工作的

Taskey

已于 2024-07-12 10:37:19 修改

阅读量2.6w

点赞数 71

文章标签： transformer 深度学习自然语言处理

于 2022-03-09 19:04:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42599237/article/details/123383691

版权

本文详细解析了Transformer在机器翻译任务中的训练和推理过程。在推理时，输入句子经Encoder编码，Decoder逐步生成目标序列，利用mask防止未来信息泄露。训练时，Encoder接收源语言句子，Decoder输入源目标混合序列，并使用mask确保自注意力计算的正确性。通过损失函数优化，使模型输出接近真实标签。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Transformer中的encoder和decoder在训练和推理过程中究竟是如何工作的

苦苦冲浪，找不到答案
Transformer结构（随便冲浪均可查到）
Transformer推理过程
Transformer训练过程

苦苦冲浪，找不到答案

之前学习transformer的时候就不是很理解encoder和decoder在训练和推理过程中是如何工作的，四处查询也没有讲的很详细，很多文章和视频都是encoder讲很多，到了decoder就一带而过了，后来在b站看了大佬讲解的transformer源码，终于明白了encoder和decoder是怎么工作的了，怕自己再忘记，现记录一下。

Transformer结构（随便冲浪均可查到）

在这里插入图片描述
Input Embedding和Positional Encoding之类大家都在讲的部分就不多做介绍了，这里着重讲一下transformer在机器翻译的推理和训练时是如何工作的。

Transformer推理过程

以“我爱你”到“I love you”为例，对于transformer来讲，在翻译“我爱你”这句话时，先将其进行embedding和encoding送入encoder（包含n层encoder layers），encoder layer之间完全是串联关系，最终在第n层encoder layer得到k，v。

（评论区有朋友指出了推理过程中的错误解释

最低0.47元/天解锁文章

评论 23

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。