transform与位置编码

最新推荐文章于 2024-09-10 20:52:55 发布

cv-daily

最新推荐文章于 2024-09-10 20:52:55 发布

阅读量223

点赞数 7

文章标签：计算机视觉

本文链接：https://blog.csdn.net/weixin_41012399/article/details/140846950

版权

参考：https://blog.csdn.net/xian0710830114/article/details/133377460

一、为什么需要位置编码
在Transformer出现以前，NLP任务大多是以RNN、LSTM为代表的循环处理方式，即一个token一个token的输入到模型当中。模型本身是一种顺序结构，天生就包含了token在序列中的位置信息。但是这种模型有很多天生的缺陷，比如：
1.会出现“遗忘”的现象，无法支持长时间序列，虽然LSTM在一定程度上缓解了这种现象，但是这种缺陷仍然存在；
2.句子越靠后的token对结果的影响越大；
3.只能利用上文信息，不能获取下文信息；
4.计算的时间复杂度比较高，循环网络是一个token一个token的输入的，也就是句子有多长就要循环多少遍；
为了解决上述问题，Transformer出现了，Transformer将token序列一次性输入到模型，不使用循环的形式。因为是一次性接收所有token作为输入进行并行处理，“遗忘”的问题没有了、所有的token都一视同仁了、上下文的信息能同时获取到、时间复杂度也降下来了。但是这又出现了新的问题，因为所有token一视同仁了，模型就没有办法知道每个token在句子中的相对和绝对的位置信息，而位置关系对于NLP任务来说是有着决定性影响的。比如下面的两句话token完全一样，但含义截然相反：
1.我把小姐姐按在地上摩擦
2.小姐姐把我按在地上摩擦
二、位置编码分类
位置编码用来标记token的前后顺序，总的来说，位置编码分为两个类型：绝对位置编码和相对位置编码。