CNNs Transformer的position位置编码、位置嵌入

CNNS:

  • inductive biases inherent(such as,translation equivariance,locality,two-dimensional neighborhood structure)

Transformer:

  • lack inductive biases inherent (such as, translation equivariance and locality),但是当其数据集训练足够时,没有也没事。
  • MLP:locality,translation equivariance
  • self-attention:gobal,permutation-invariance置换不变i性,lack order
  • two-dimensional neighborhood structure很少,原因是:将图像分块,无法携带二维位置信息,方案:position embedding :所有块在空间上的相关性都需要从开始就进行学习。

Position:

  • 1D-position和2D-position embedding:性能差不多?
  • learned position embedding(可学习的位置嵌入):邻近的块的位置嵌入相似性高。
  • fixed or learnable positional encoding (固定/可学习的位置编码):预定义,独立于输入tokens。
  • conditional positional encoding(条件位置编码):条件基于局部相邻的token,动态生成,保持平移不变性。
  • absolute positional encoding(绝对位置编码):顺序意识order-awareness,不同频率的正弦函数-固定或可学习,但是会破坏transformer的灵活性,也就是说,绝对位置编码会给每个token加上一个独一无二的位置编码,进而破坏了其平移不变性。也会出现限制大小固定问题,可以通过双线性上采样将位置编码到目标长度,但由此又会带来计算复杂,性能下降。但是,绝对位置编码对图像分类任务提供了相对位置编码所不能提供的信息。
  • relative position encoding(相对位置编码):每个像素与其他像素的相对位置,带来了计算量的上升,也需要更改标准的transformer架构。但是,其保持了平移不变性,也解决了序列长度问题。2D的相对位置编码优于2D的正弦嵌入。

position encoding作用

  • 输入序列的顺序是非常重要的线索,而模型只能用位置编码来获取这一顺序。进而保证序列的置换不变性和平移不变性。
  • 边缘的token可以通过zero-padding来感知它们的绝对位置。
  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MengYa_DreamZ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值