Transformer模型结构详解

最新推荐文章于 2024-05-28 04:00:00 发布

Ibrahimovic1

最新推荐文章于 2024-05-28 04:00:00 发布

阅读量515

点赞数

文章标签： transformer 自然语言处理深度学习 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ibrahimovic1/article/details/120320749

版权

1、模型架构

大部分序列到序列（seq2seq）模型都使用编码器-解码器结构 (引用)。编码器把一个输入序列(𝑥1,...𝑥𝑛)(x1,...xn)映射到一个连续的表示𝑧=(𝑧1,...𝑧𝑛)z=(z1,...zn)中。解码器对z中的每个元素，生成输出序列(𝑦1,...𝑦𝑚)(y1,...ym)。解码器一个时间步生成一个输出。在每一步中，模型都是自回归的(引用)，在生成下一个结果时，会将先前生成的结果加入输入序列来一起预测。

2、结构细节

2.1 Encoder

encoder

编码器的每层encoder包含Self Attention 子层和FFNN子层，每个子层都使用

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Transformer模型结构详解

1、模型架构大部分序列到序列（seq2seq）模型都使用编码器-解码器结构(引用)。编码器把一个输入序列(????1,...????????)(x1,...xn)映射到一个连续的表示????=(????1,...????????)z=(z1,...zn)中。解码器对z中的每个元素，生成输出序列(????1,...????????)(y1,...ym)。解码器一个时间步生成一个输出。在每一步中，模型都是自回归的(引用)，在生成下一个结果时，会将先前生成的结果加入输入序列来一起预测。2、结构细节
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。