RNN卷土重来:基于门控记忆槽的线性注意力机制

f46cbce7536a0edaf67d7be0cd0e0af7.png

主题

RNN卷土重来:基于门控记忆槽的线性注意力机制

时间

2024.7.28 10:30-11:30 周日

入群

faf30adda1b5a41ea4c6778ca1462c7a.png

内容

1. 背景 

    - 基于标准注意力机制的大语言模型

    - 线性化方法

2. 门控记忆槽注意力机制

    - KV memory视角下的attention及其线性化

    - 数据依赖的门控机制

    - 并行化方法

    - 参数化

3. 实验

    - 基准评测结果

    - GSA的Recall能力和隐状态容量分析

    - 继续训练的优势

4. FLA

5. 总结与展望

6. QA

引言

7edb25d371a8651c5cc4f15cf2018ec6.png

当前的大语言模型(LLM)在使用标准注意力机制时,面临着训练复杂度呈二次增长以及推理阶段管理键值(KV)缓存内存密集型的挑战。线性注意力作为一种有前景的替代方案,通过固定容量的隐藏状态取代了无界限的KV存储,从而缓解了这一问题。

然而,现有的线性注意力实现往往在性能上不及类似Llama架构(如Transformer++)的效率。

本次talk介绍了一种基于门控槽注意力(Gated Slot Attention,简称GSA)的方法,该方法融合了标准注意力的原理与数据依赖的门控线性注意力,实现了序列建模的线性化。通过更优的内存管理,采用GSA训练的LLM相较于以往的线性注意力设计应当展现出更好的性能。

更重要的是,GSA能够在现代硬件上实现高效并行化,这使得大规模实验成为可能。通过从头训练13亿和27亿参数的模型,GSA在一系列基准测试上表现出了很强的竞争力。此外,GSA与其他线性注意力变体相比,与现有的基于标准注意力的LLM有更好的兼容性。

嘉宾

817fd2fe612a872477b71d90ce611612.png

张宇目前是苏州大学人工智能实验室的三年级博士生,指导老师是付国宏教授。在此之前,他于2021年在苏州大学获得了硕士学位。

他的主要研究方向主要集中于开发更高效的语言生成模型,特别是针对硬件优化、线性复杂度的序列建模方法。他致力于发掘并利用并行计算的潜力,以构建可扩展的次平方级模型。目前已在ACL/EMNLP等NLP会议上发表多篇论文,是句法分析SuPar和线性注意力FLA等库的主要贡献者和维护者。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

7c509175f50653491ccd164b25d5e014.png

id:DLNLPer,记得备注呦

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值