transformer整理

最新推荐文章于 2024-08-02 16:56:48 发布

摸黑也码着代码

最新推荐文章于 2024-08-02 16:56:48 发布

阅读量363

点赞数

分类专栏：学习

本文链接：https://blog.csdn.net/m0_37374707/article/details/103630006

版权

Transformer是一种基于encoder-decoder结构的模型，主要用于序列到序列任务。关键组件包括Positional Encoding、Multi-Headed Attention、Feed-Forward Layer和Masked Multi-head attention。Positional Encoding用于表示单词顺序，Self-Attention允许模型查看序列中的其他位置。训练时使用Adam优化算法，并在WMT数据集上进行实验，表现出优秀的性能。

摘要由CSDN通过智能技术生成

介绍

Transformer 是一种基于 encoder-decoder 结构的模型,模型结构如下图所示，在encoder中主要有Multi-Headed Attention和前馈神经网络层组成，decoder 中主要有Multi-Headed Attention、前馈神经网络层和Masked Multi-Headed Attention组成。
在这里插入图片描述
在 Encoder 中，

Input 经过 embedding 后，要做 positional encodings
经过Multi-head attention
再经过 position-wise Feed Forward
每个子层之间有残差连接

在 Decoder 中，
如上图所示，也有 positional encodings，Multi-head attention 和 FFN，子层之间也要做残差连接，但比 encoder 多了一个 Masked Multi-head attention，最后要经过 Linear 和 softmax 输出概率。

Positional Encoding

Positional Encoding 是一种考虑输入序列中单词顺序的方法。
encoder 为每个输入 embedding 添加了一个向量，这些向量符合一种特定模式，可以确定每个单词的位置，或者序列中不同单词之间的距离。计算方式如下：
在这里插入图片描述
其中 $p o s$ 为token在sequence里的位置， $d_{model}$ 为Embedding的维度， $<$

最低0.47元/天解锁文章

摸黑也码着代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
transformer整理

介绍Transformer 是一种基于 encoder-decoder 结构的模型,模型结构如下图所示，在encoder中主要有Multi-Headed Attention和前馈神经网络层组成，decoder 中主要有Multi-Headed Attention、前馈神经网络层和Masked Multi-Headed Attention组成。在 Encoder 中，Input 经过 em...
复制链接

扫一扫