7月11日直播|简单而强大,混合神经网络架构,支持无限上下文的混合模型 Samba...

892bd599225ca7f02a66f66f1d83895b.png

告主题:Samba,一种简单有效的支持无限上下文的混合模型

报告日期:7月11日(周四)10:30-11:30

报告要点

Samba是一种简单而强大的混合神经网络架构,旨在对无限的上下文长度实现高效的语言建模。Samba 在常识推理、语言理解、数学和编程等广泛的基准测试中显著优于当前最先进的纯注意力机制和状态空间模型(SSM)模型。此外,Samba 在处理长上下文方面表现出卓越的效率,与最先进的 Transformer 架构相比,在提示处理和解码吞吐量方面实现了显著的加速。该架构通过非常少量的微调就能将记忆回顾能力扩展到非常长的上下文(最长可达 256K),这突显了其在需要广泛上下文理解的实际任务中的实际应用能力。通过我们在下游长上下文摘要任务中的评估,进一步证明了这种高效的长期记忆能力的实用性。

我们的分析还提供了对混合模型最佳训练配置的见解,并强调了结合注意力机制和 SSMs 的好处。我们发现,减少分配给注意力机制的参数,同时利用 Mamba 在捕捉递归结构方面的优势,可以实现更高效和更有效的语言建模。我们的结果表明,Samba 是一种适用于具有无限上下文长度的语言建模的强大神经网络架构。我们公开了小规模模型的训练代码:https://github.com/microsoft/Samba/

报告嘉宾

任立椋是微软生成式人工智能组高级研究员,伊利诺伊大学香槟分校计算机科学专业的应届博士生,由翟成祥教授指导。他本科毕业于上海交通大学密西根学院的电子计算机专业,由俞凯教授指导。他目前的研究兴趣在于高效长上下文建模,专家混合模型和字节级语言建模。他在 NeurIPS、ACL 和 EMNLP 发表了六篇第一作者论文。他曾是微软研究院和亚马逊科学的研究实习生。

1f6f43805abd57ac068770a35906d6f9.png

扫码报名


近期热门报告

bf79255d0b8056dc5aad40205064d48e.jpeg

cfbad1bb3d38bfea9469484c50c2ad2f.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值