Position Embedding

为什么存在位置编码

Attention本质是计算输入序列中每个token与整个序列所有token之间的注意力权重。

若不给token的embedding增加位置信息,那么无论token的位置如何变化,注意力的权重不会变化。这并不合理,因为理论上相对距离相近的token相关性会更新,注意力权重应当更大才合适。
应此需要给embedding后的结果注入位置信息。

Sinusoidal Position Embedding(正弦位置编码)

特点:
1、Transformer论文中使用,属于绝对位置编码
2、位置编码只在网络开始时注入一次,在token查询embedding时直接叠加位置编码
3、远程衰减

Rotary Position Embedding(RoPE,旋转位置编码)

在绝对位置编码中,模型只能感知到每个词向量所处的绝对位置,无法感知两两词向量之间的相对位置。
因此:RoPE的特点是:通过绝对位置编码的方式实现相对位置编码
特点
1、借助复数求解的数学方法,实现了一个旋转的周期性
2、高维向量的表达时,两两token之间的旋转计算非常稀疏,可以使用节省算力的等效表达。
3、同样拥有远程衰减特性,可以通过base=10000配置
4、位置编码为一个旋转矩阵,通过左乘次向量实现位置信息注册
5、RoPE在每层都注入位置形象,不同与正弦位置编码仅在词向量输入模型时与词向量做相加。
6、RoPE仅与Q与K做位置信息的注入,不去调整V。

T5 Bias

T5 Bias是相对位置方法,因为它没有为词向量直接添加位置信息。
因为我们需要位置信息本质上是为了在Attention权重计算时考虑相对位置关系。
所有T5 Bias直击本质,不去对Q 和K注入位置信息,而是对每个Q-K注意力分数添加一个学习而来的bias,此bias只与Q-K的相对位置距离有关。不同的Q-K距离使用不同的bias,相同的Q-K距离共享使用同一个Bias。
特点:
1、同样每个transformer层对Q-K添加Bias
2、同样不操作V

Attention with Linear Biase(ALiBi)

T5 Bias的改进版
T5 Bias的缺点
1、引入而外的bias导致训练速度变慢与额外内存占用
2、长度外推能力弱 (实验得出结论)

ALiBi特点论文
在这里插入图片描述

1、Bias训练慢,那就预定义一个bias, 相对位置距离越远bias越小
2、m是超参可调
3、也是只有k,v有bias

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值