Transformer中的encoder和decoder在训练和推理过程中究竟是如何工作的

本文详细解析了Transformer在机器翻译任务中的训练和推理过程。在推理时,输入句子经Encoder编码,Decoder逐步生成目标序列,利用mask防止未来信息泄露。训练时,Encoder接收源语言句子,Decoder输入源目标混合序列,并使用mask确保自注意力计算的正确性。通过损失函数优化,使模型输出接近真实标签。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Transformer中的encoder和decoder在训练和推理过程中究竟是如何工作的

苦苦冲浪,找不到答案

之前学习transformer的时候就不是很理解encoder和decoder在训练和推理过程中是如何工作的,四处查询也没有讲的很详细,很多文章和视频都是encoder讲很多,到了decoder就一带而过了,后来在b站看了大佬讲解的transformer源码,终于明白了encoder和decoder是怎么工作的了,怕自己再忘记,现记录一下。

Transformer结构(随便冲浪均可查到)

在这里插入图片描述
Input Embedding和Positional Encoding之类大家都在讲的部分就不多做介绍了,这里着重讲一下transformer在机器翻译的推理和训练时是如何工作的。

Transformer推理过程

以“我爱你”到“I love you”为例,对于transformer来讲,在翻译“我爱你”这句话时,先将其进行embedding和encoding送入encoder(包含n层encoder layers),encoder layer之间完全是串联关系,最终在第n层encoder layer得到k,v。

(评论区有朋友指出了推理过程中的错误解释

评论 23
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值