Transformer论文详解，论文完整翻译（七）

最新推荐文章于 2024-03-26 22:00:04 发布

ws_nlp_

最新推荐文章于 2024-03-26 22:00:04 发布

阅读量580

点赞数

分类专栏： # nlp：论文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33624866/article/details/106837783

版权

nlp：论文专栏收录该内容

17 篇文章 3 订阅

订阅专栏

Transformer论文详解，论文完整翻译（七）

第三章模型结构（四）

3.3 位置相关的前馈神经网络

除了子层的attention之外，每个encoder和decoder层包括了一个全连接前馈网络，每个网络在每个位置中是单独并且相同的。网络包括了两个线性转换和一个ReLU激活函数。

3.4 Embedding和Softmax

与其他序列转换模型相似，我们使用学习embedding的方法将输入和输出token转换成d（model）维度的向量。我们也使用了通常的线性转换学习和softmax函数将decoder输出转换成预测下一个token的概率。在我们的模型中，我们对两个embedding层和pre-softmax线性转换层共享了相同的权重。在embedding层中过，我们将这些权重乘以了d（model）的平方根。

3.5位置Encoding

因为我们的模型不包含循环和卷积，为了使模型能够使用到序列的顺序，我们必须加入一些序列token的相对或者绝对位置信息。为此，我们将位置encoding加入到了输入的embedding，在encoder和decoder的最底层。位置encoing和embedding有着相同的维度d（model），因此两种可以相加。有许多种位置encoding的选择。

在本文中，我们使用了不同频率的sin和cos函数：
（个人理解，每个词有512个维度，偶数用sin，奇数用cos，最后每个维度用函数算一个值，512个值拼接起来）

在这里插入图片描述

其中pos是位置，i是维度。因此，每个维度的位置encoding都是符合正弦的。几何级数的波长是从2 pai 到 10000乘 2 pai。我们选择了这个函数是因为我们假设它可以让模型更容易学习通过相关位置。因为对于任意一个固定的k，PE（pos+k）可以被线性表示成一个PE（pos）的线性函数。

我们也使用可学习的位置embedding做了实验去替代，发现两种方法结果基本相同。我们选择了正弦方法因为它可以允许模型在偶遇比训练更长的序列时可以推断。

（个人总结，请勿转载）

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Transformer论文详解，论文完整翻译（七）

Transformer论文详解，论文完整翻译（七）3.3 位置相关的前馈神经网络除了子层的attention之外，每个encoder和decoder层包括了一个全连接前馈网络，每个网络在每个位置中是单独并且相同的。网络包括了两个线性转换和一个ReLU激活函数。（未完待续）（个人总结，请勿转载）...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。