[论文笔记] PAI-Megatron 源码解读之Mistral的滑动窗口sliding window

Mistral滑动窗口

        滑动窗口注意力(Sliding Window Attention,SWA)利用了变压器(Transformer)堆叠层的特性,以关注超出窗口大小W的信息。位于层k的位置i的隐藏状态hi,会关注到前一层中从i-W到i之间的所有隐藏状态。递归地,能够访问到输入层上距离高达W×k个令牌的位置,如图1所示。在最后一层,使用窗口大小为W=4096时,我们理论上的注意力范围大约为131K个令牌。实际上,对于一个长度为16K的序列和W=4096的情况,对FlashAttention [11] 和 xFormers [18] 所做的修改带来了与普通注意力基线相比2倍的速度提升。

        滚动缓冲缓存固定的注意力范围意味着我们可以使用滚动来限制我们的缓存大小缓冲区缓存。缓存的大小固定为W,并且存储时间步骤i的键和值在缓存的位置i mod W。因此,当位置i大于W时,过去的值在缓存中被覆盖,并且缓存的大小停止增加。我们提供了一个例子。在图2中,W = 3。在序列长度为32k令牌的情况下,这减少了缓存内存的使用,在不影响模型质量的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心心喵

喵喵(*^▽^*)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值