透彻分析Transformer中的位置编码（positional enconding）

是啊洋呀

已于 2022-11-30 20:34:12 修改

阅读量2.6k

点赞数 1

分类专栏：洋少的深度学习笔记文章标签： transformer 深度学习人工智能

于 2022-11-30 20:26:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43892462/article/details/128120276

版权

洋少的深度学习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一、Transformer中为什么要使用位置编码positional encoding

在《Attention Is All You Need》这篇论文中首次提到了transformer模型，transformer模型在输入端用了一个位置编码（positional encoding），其主要目的是增加相对位置信息，使其可以更好的利用每个元素相互之间的位置关系
在这里插入图片描述

二、具体编码实现方式

论文作者使用的是正余弦函数进行编码，这时可能会有人产生了疑惑，为什么要使用这么复杂的编码方式呢，这里举个例子，一句话“你好吗”用“1，0，0”、“0，1，0”、“0，0，1”的独热编码不可以么，编码方式还会更加的简单，为什么要用下图这么复杂的编码方式呢？
在这里插入图片描述

因为正余弦编码的表示方法蕴含了相对位置信息，假设一句话“我是小狗”的“狗”的位置为 pos+k，那么即可用在位置为“pos”的“我”和在“k”位置的“是”这两个位置的编码向量进行线性组合来表示出狗这个字的位置编码向量，具体公式如下。
在这里插入图片描述
上式的具体推到用到了sin和cos的积化和差的性质，这也就是为什么要用sin和cos交替的形式来进行位置编码

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
透彻分析Transformer中的位置编码（positional enconding）

Transformer中为什么要使用位置编码positional encoding
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。