简单来总结一下:
FLASH(Fast Linear Attention with a Single Head)相比标准transformer的两个改进点:
-
使用GAU,2n层的GAU叫做FLASH-Quad,Quad是quadratic的意思。GAU实际上是把GLU和Attention给拼在了一起,发现单头GAU效果炸裂&多头明显浪费显存,2层GAU的参数量和原来attention+FFN参数量是相当的。GAU效果炸裂的一个原因是之前的GLU本身已经比较强了。
-
“局部全局”分块混合的思想:局部就是把长序列切成partitions,transformer的复杂度是和 n 2 n^2 n2成正比,切成块后自然复杂度低了;对于长距离的依赖,用去掉softmax的transformer硬凑,也就是全局信息。
以下转载自https://kexue.fm/archives/8934