为什么Transformer / ViT 中的Position Encoding能和Feature Embedding直接相加？

越来越胖的GuanRunwei

已于 2022-05-05 08:33:28 修改

阅读量3.1k

点赞数 13

分类专栏：深度学习 Transformer 数学文章标签： transformer 深度学习人工智能

于 2022-05-05 08:30:35 首次发布

本文链接：https://blog.csdn.net/qq_38890412/article/details/124581338

版权

深度学习同时被 3 个专栏收录

32 篇文章 32 订阅

订阅专栏

数学

31 篇文章 13 订阅

订阅专栏

Transformer

4 篇文章 7 订阅

订阅专栏

前言

刚开始学习Transformer / ViT的时候会发现为什么作者会将Position Encoding直接和Feature Embedding相加？当时的第一反应是，为什么不是concat，因为两者分明是两种异构的信息，为什么能放在一起相加呢？不应该concat才合理么？最近对一些工作做收尾的时候发现了这个后来被我遗漏的问题。（如果不知道Position Encoding是啥的建议先去阅读一下原论文）

问题

从向量空间的角度来看，我原本有一个Feature Embedding向量矩阵，我再加上一个Position Encoding，那不就意味着我原本的Feature Embedding向量的大小和方向都发生了变化么？而Positon Encoding代表的是Feature Embedding中的每个feature的相对/绝对位置，直觉上来讲，在通道维上concat是一个符合深度学习逻辑的操作，那么为什么原文作者最后选择了直接对两者做相加呢？

推理

以语句为例，首先，我们先尝试用concat的方法。我们给原始输入向量的每个位置 $x^i \in R^{(d,1)}$ concat上一个代表位置信息的向量 $p^i \in R^{(N,1)}$ (N代表共有N个位置)形成 $x^i_p \in R^{(d+N, 1)}$ ,它也可以表示为 $[[x^i]^T, [x^p]^T]^T$ 这个形式。