Transformer为什么要有pos embedding

最新推荐文章于 2024-10-12 23:37:56 发布

@当当2333333

最新推荐文章于 2024-10-12 23:37:56 发布

阅读量1.6k

点赞数

分类专栏：算法文章标签：自然语言处理 tensorflow

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37938547/article/details/106056448

版权

算法专栏收录该内容

5 篇文章 0 订阅

订阅专栏

前几天面试面试官问了我一个问题，Transformer的编码部分用的是attention，那么它会不会在编码后几个单词的时候丢失掉前面的信息？Transformer为什么要有位置信息？想summary一下，小白一枚。

首先，个人感觉LSTM有点像串行结构，其最明显的特点是按单词顺序一个一个进行编码的，比如我在人民广场吃炸鸡：
input：[w1,w2,w3,w4,w5…w9]
但是在进行编码的时候隐状态h（t）的计算必须等到前t-1个隐变量计算完毕后才会开始计算，所以有点像串行结构。那么为什么LSTM模型后面词编码的时候会带有前面的信息呢？这是因为在计算h(t)时，是由w(t)、C(t-1)共同决定的，C（t-1）携带了前面单词的信息。

反过来看attention，attention并不像LSTM那样有时序概念，所以在用attention的时候得有pos embedding, 而lstm并不需要。还是刚刚那个我在人民广场吃炸鸡例子：
input：[w1,w2,w3,w4,w5…w9] word+pos-embedding
然后计算得出key,query,value; key和query做点积，做softmax运算计算出相似度，相似度乘以value为最终结果。用pos-embedding的原因是attention是为了来理解语言的顺序。

特别重要的一点：Transformer 与LSTM的一个明显区别：lstm作为rnn模型是迭代进行的，有语言顺序的，而Transformer是并行的，它没有时序关系。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。