1. LSTM
传统的 LSTM (长短期记忆网络) 的计算公式涉及几个关键部分:输入门、遗忘门、输出门和单元状态。
2. xLSTM
xLSTM之所以称之为xLSTM就是因为它将LSTM扩展为多个LSTM的变体,sLSTM和mLSTM,每种变体都针对特定的性能和功能进行优化,以处理各种复杂的序列数据问题。
xLSTM 在性能上与最新的 Transformer 和状态空间模型相媲美,尤其是在大规模应用和长序列处理方面展现出优势。
2.1 理论介绍
2.2 代码实现
深入解析xLSTM:LSTM架构的演进及PyTorch代码实现详解