【论文阅读】xLSTM: Extended Long Short-Term Memory

最新推荐文章于 2024-08-25 23:16:51 发布

煌澄艾

最新推荐文章于 2024-08-25 23:16:51 发布

阅读量2.3k

点赞数 19

分类专栏：论文文章标签：论文阅读算法人工智能

本文链接：https://blog.csdn.net/qq_42266272/article/details/139096230

版权

论文专栏收录该内容

30 篇文章

订阅专栏

xLSTM: Extended Long Short-Term Memory

引用： Beck M, Pöppel K, Spanring M, et al. xLSTM: Extended Long Short-Term Memory[J]. arXiv preprint arXiv:2405.04517, 2024.

论文链接： [2405.04517] xLSTM: Extended Long Short-Term Memory (arxiv.org)

作者： Maximilian Beck, Korbinian Pöppel, Markus Spanring, Andreas Auer, Oleksandra Prudnikova, Michael Kopp, Günter Klambauer, Johannes Brandstetter, Sepp Hochreiter

机构： ELLIS Unit, LIT AI Lab, Institute for Machine Learning, JKU Linz, Austria; NXAI Lab, Linz, Austria; NXAI GmbH, Linz, Austria

文章目录

xLSTM: Extended Long Short-Term Memory

摘要

在这里插入图片描述

论文提出了xLSTM，一种扩展的长短期记忆网络，旨在解决传统LSTM的局限性，并在大规模参数下进行语言建模。
xLSTM引入了指数门控和适当的归一化与稳定技术，修改了LSTM记忆结构，包括标量记忆的sLSTM和完全可并行化的具有矩阵记忆和协方差更新规则的mLSTM。
通过将这些LSTM变体集成到残差块中，构建了xLSTM架构，这些架构在性能和扩展性方面与最先进的Transformers和状态空间模型相媲美。

引言

LSTM自1990年代引入以来，在多个领域取得了成功，特别是在大型语言模型（LLMs）中。
引入Transformer技术后，其并行化的自注意力机制使得LSTM在大规模应用中的性能受到挑战。
论文提出了一个问题：当LSTM扩展到数十亿参数，并结合现代LLMs的最新技术，同时克服LSTM的已知限制时，我们能在语言建模中走多远？

xLSTM架构

1. sLSTM（Scalar LSTM）

指数门控是sLSTM中的一个创新点，它允许模型更有效地更新其记忆状态。在传统的LSTM中，门控机制通常涉及sigmoid函数，但在xLSTM中，输入门（ $i_t$ ）和遗忘门（ $f_t$ ）可以具有指数激活函数:

$c _ { t } = f _ { t } c _ { t - 1 } + i _ { t } z _ { t }$

$n _ { t } = f _ { t } n _ { t - 1 } + i _ { t }$

$\tilde{h _ { t }}, \quad \tilde{h _ { t }} = o _ { t } / n _ { t }$

$\varphi ( \tilde { z } _ { t } ), \quad \tilde { z } _ { t } = w _ { z } ^ { T } x _ { t } + r _ { z } h _ { t - 1 } + b _ { z }$

$\tilde { i } _ { t } ), \quad \tilde { i } _ { t } = w _ { i } ^ { T } x _ { t } + r _ { i } h _ { t - 1 } + b _ { i }$

$\sigma ( \tilde { f } _ { t } ) \quad OR \quad e x p ( \tilde { f } _ { t } ), \quad \tilde { f } _ { t } = w _ { f } ^ { T } x _ { t } + r _ { f } h _ { t - 1 } + b _ { f }$

$\tilde { o } _ { t } ), \quad \tilde { o } _ { t } = w _ { o } ^ { T } x _ { t } + r _ { o } h _ { t - 1 } + b _ { o }$

指数激活函数可能导致较大的值，从而导致溢出。因此，用一个额外的状态 $m_t$ 来稳定门：

$m _ { t } = \max ( \log ( f _ { t } ) + m _ { t - 1 } , \log ( i _ { t } ) )$

$\prime } = e x p ( \log ( i _ { t } ) - m _ { t } ) = e x p ( \tilde { i } _ { t } - m _ { t } )$

$\prime } = e x p ( \log ( f _ { t } ) + m _ { t - 1 } - m _ { t } )$

其中，$m_t $是稳定状态，用于防止梯度爆炸。

同时，sLSTM引入了新的记忆混合技术，允许在多个内存单元之间进行更复杂的交互。多个存储器单元使得能够分别经由从隐藏状态向量 $h$ 到存储器单元输入 $z$ 和门 $i$ 、 $f$ 、 $o$ 的循环连接 $R_z$ 、 $R_i$ 、 $R_f$ 、 $R_o$ 进行存储器混合。sLSTM可以有多个头，每个头内混合内存，但不能跨头混合。