LSTM一作新作xLSTM架构:大幅领先Transformer和状态空间模型(SSM)

9f6580f37551e136279847e04ada843c.png

这篇论文介绍了一种名为xLSTM(Extended Long Short-Term Memory)的新型递归神经网络架构,旨在解决传统LSTM(Long Short-Term Memory)网络的一些局限性,并提高其在语言建模等任务中的性能。

7d8f14a8c2ce6edc55ba5a10380bc6e3.png

论文:xLSTM: Extended Long Short-Term Memory
链接:https://arxiv.org/pdf/2405.04517

下面是对论文各部分的详细解读。

摘要

  • 背景:LSTM在1990年代被提出,用以解决循环神经网络(RNN)的梯度消失问题。LSTM在多种领域取得了成功,但随着Transformer技术的出现,其地位受到了挑战。

  • 问题:作者提出了一个问题:如果将LSTM扩展到数十亿参数,并利用现代大型语言模型(LLM)的技术,同时克服LSTM的已知限制,我们能在语言建模上走多远?956051bcbf14f931f1c6e02b21eb24c5.png

  • 贡献:论文介绍了两种新的LSTM变体:sLSTM(具有标量记忆和更新)和mLSTM(具有矩阵记忆和协方差更新规则),并将它们集成到残差块中,形成xLSTM架构。

引言

  • LSTM原理:介绍了LSTM的核心原理,包括恒定误差旋转(constant error carousel)和门控机制。

  • LSTM应用:LSTM在文本生成、序列到序列翻译、程序评估等任务中表现出色。

  • LSTM局限性:指出LSTM的三个主要局限性:无法修订存储决策、有限的存储容量、缺乏可并行化。

扩展的长短期记忆

  • sLSTM:引入了指数门控和新的存储混合技术,允许LSTM修订其存储决策。

  • mLSTM:将LSTM的记忆单元从标量扩展到矩阵,提高了存储容量,并引入了协方差更新规则,使得mLSTM可以完全并行化。

  • xLSTM架构:通过将sLSTM和mLSTM集成到残差块中,构建了xLSTM架构。

记忆单元

  • 恒定误差旋转ct = ft * ct-1 + it * zt,其中ct是单元状态,ft是遗忘门,it是输入门,zt是经过激活函数的输入。

  • 门控:包括输入门it、遗忘门ft和输出门ot,控制信息的流动。

b6861e0579b910b7ad68961db0e96ef6.png

sLSTM

  • 指数门控:引入指数激活函数到输入和遗忘门中。

  • 标准化和稳定化:通过规范化器状态来平衡门控的激活值。

94bf12572e86cfdb1b1911c9fb24fdac.png5b1a04401efa18a545edf85b6b6a7d53.png

mLSTM

  • 矩阵记忆:使用矩阵来存储和检索信息,提高了存储容量。

  • 协方差更新规则:使用协方差矩阵来更新记忆单元。

a6a2cf6c66850d6ac8cd04d3e923a12e.png

xLSTM架构

  • 残差块:xLSTM架构通过残差堆叠构建,利用预层归一化(preLayerNorm)残差骨干。

  • 并行化:mLSTM的设计允许并行化,而sLSTM由于内存混合而无法并行化。

8f66bd04dd7af9daab277001a42fcef0.png

实验

3c5771fcccaf5cdde085932d719dae51.png
  • 合成任务和长距离竞技场:测试了xLSTM在处理形式语言和长序列任务上的能力。d01ddecc2be8c00cac8444ee77e92925.png18c837e66e99c25cfc02fae12b37f470.png37149e1ad8b1516c0876b7086503681a.png

  • 方法比较和消融研究:在SlimPajama数据集上训练并比较了xLSTM和其他方法的性能。45248fb728c1c4ae531805178b371fbf.png

  • 大型语言模型:在更大的数据集上训练xLSTM,并评估其作为大型语言模型的潜力。5892b222e92c3c8fb300420ca5e380cb.pngce9e2c5fd4ed790dec8de6dee40deb73.pngb06448c18f55625045eaf31dd50887c0.pngff079ebe7b8785d9783296f2274ebf25.png

相关工作

  • 线性注意力:讨论了几种旨在降低Transformer注意力机制复杂度的方法。

  • 状态空间模型:最近在语言建模中变得流行的方法,它们在上下文长度上是线性的。

结论

  • 性能:xLSTM在语言建模任务上与现有的Transformer和状态空间模型相比表现出色。

  • 潜力:xLSTM有潜力成为强化学习、时间序列预测或物理系统建模等领域的重要工具。

限制

  • 并行化:sLSTM的内存混合阻止了并行化操作。

  • 计算复杂性:mLSTM的矩阵记忆具有高计算复杂性。

  • 初始化:遗忘门的初始化需要谨慎选择。

  • 内存限制:矩阵记忆可能在长序列上下文中超载。

这篇论文的每个部分都详细介绍了xLSTM架构的设计原理、数学公式和实验结果,展示了其在语言建模任务中的潜力。

本文主要来自kimi解读,具体了解请阅读原论文。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

0c9e1b1361b41dbb7d4bc49365e827e0.png

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值