关于Transformer中的Positional Encoding这件小事

最新推荐文章于 2024-09-18 11:57:45 发布

訢詡

最新推荐文章于 2024-09-18 11:57:45 发布

阅读量457

点赞数

分类专栏：深度学习NLP方向文章标签： transformer Positional Emb

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Andrwin/article/details/117069009

版权

本文介绍了Transformer模型中Positional Encoding的重要性，它用于保留序列信息，弥补并行处理带来的顺序丢失问题。通过不同位置的sin和cos函数组合，生成独一无二的位置向量，确保每个词有其特定的位置标识。Positional Encoding的矩阵与词嵌入相加作为模型输入。

摘要由CSDN通过智能技术生成

看到这个Positional Encoding完全不明白这是个啥。今天似乎搞懂了，整理一下。

众所周知RNN属鱼的记性不太好，学了后面忘了前面。

LTSM呢倒是一个字一个按照顺序来的，但是太慢啊，transformer是并行输入的，一次一个矩阵，这么搞要搞到地老天荒。

那么问题就来了，一次输入一批就失去了顺序，上下文没了。

这个时候Positional Encoding就要闪亮登场了，我给字一个‘’编号‘’不就好了，编号之间是存在顺序的，那么这样字和字之间也存在顺序了。

位置向量是怎么算出来的呢？注意哦，是位置向量，并不是位置嵌入，这和BERT里面的Positional Embbeding不一样。

也就是奇数用cos 偶数用sin。众所周知三角函数具有周期性，那么周期性是不是一种顺序信息？

原文里面把这个周期设定在2π到1W*2π之间，用sin和cos组合就可以组合出独一无二的位置信息，即每个词都能得到不重复的不同周期的sin和cos组成出来的位置信息。

那我们整体看一下：

现在我有一个已经做好的词表和对应的词嵌入。V [vocab size, embbeding dimension] 括号里的是这个矩阵的尺寸。

vocab size是词表里面词的

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。