FLASH:可能是近来最有意思的高效Transformer设计

FLASH是一种改进的Transformer模型,它结合了GAU(GLU和Attention的组合),减少了计算复杂度,特别是对于长序列处理。通过局部和全局分块策略,FLASH降低了从n^2到线性的复杂度,并且在保持高性能的同时减少了对显存的需求。
摘要由CSDN通过智能技术生成

简单来总结一下:

FLASH(Fast Linear Attention with a Single Head)相比标准transformer的两个改进点:

  • 使用GAU,2n层的GAU叫做FLASH-Quad,Quad是quadratic的意思。GAU实际上是把GLU和Attention给拼在了一起,发现单头GAU效果炸裂&多头明显浪费显存,2层GAU的参数量和原来attention+FFN参数量是相当的。GAU效果炸裂的一个原因是之前的GLU本身已经比较强了。
    在这里插入图片描述

  • “局部全局”分块混合的思想:局部就是把长序列切成partitions,transformer的复杂度是和 n 2 n^2 n2成正比,切成块后自然复杂度低了;对于长距离的依赖,用去掉softmax的transformer硬凑,也就是全局信息。

以下转载自https://kexue.fm/archives/8934
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值