Transformer架构；Encoder-Decoder；Padding Mask；Sequence Mask；

ZhangJiQun&MXP

于 2024-08-13 21:16:06 发布

阅读量388

点赞数 18

分类专栏： 2021 论文教学 2021 AI python 文章标签：深度学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38998213/article/details/141173049

版权

教学同时被 3 个专栏收录

256 篇文章 18 订阅 ¥89.90 ¥99.00

订阅专栏

234 篇文章 16 订阅 ¥89.90 ¥99.00

订阅专栏

188 篇文章 2 订阅 ¥99.90 ¥299.90

订阅专栏

目录

Transformer架构

Transformer架构的主要组成部分：

简单举例说明输入和输出：

Encoder-Decoder

编码器/解码器组成

6、位置前馈网络（Position-wise Feed-Forward Networks）

7、残差连接和层归一化

10、掩码Mask

10.1 Padding Mask

10.2 Sequence Mask

为什么需要Sequence Mask？

Sequence Mask是如何工作的？

为什么如果没有适当的掩码机制，解码器在生成某个位置的输出时，可能会“看到”并错误地利用该位置之后的信息

Transformer架构

Transformer架构是一种基于自注意力（Self-Attention）机制的深度学习模型，广泛应用于自然语言处理（NLP）领域。它摒弃了传统的循环神经网络（RNN）或卷积神经网络（CNN）结构，通过自注意力机制来捕捉输入序列中的依赖关系，从而实现高效的序列到序列（Seq2Seq）处理。

Transformer架构的主要组成部分：

输入层（Input Layer）：
- 输入层接收原始数据（如文本），并将其转换为模型可以处理的格式。这通常包括将文本转换为词嵌入（Word Embeddings），以及添加位置编码（Positional Encoding）以保留单词在序列中的位置信息。
编码器（Encoder）：
- 编码器由多个相同的层堆叠而成，每个层都包含自注意力机制（如多头注意

了解本专栏

关注

18
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Transformer架构；Encoder-Decoder；Padding Mask；Sequence Mask；

Transformer架构；Encoder-Decoder；Padding Mask；Sequence Mask；
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

ZhangJiQun&MXP 等到80岁回首依旧年轻

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。