【DL水记】循环神经网络RNN的前世今生，Transformer的崛起，Mamba模型-CSDN博客

本文链接：https://blog.csdn.net/wayne6515/article/details/136047632

本文详细介绍了循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)以及Transformer模型在处理时间序列数据中的作用，探讨了它们在解决长期依赖问题和捕捉序列信息上的优势与改进。同时还提到了VisionTransformer在计算机视觉领域的应用和Mamba模型在高效推理方面的突破。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

RNN网络简介

“当人类接触新事物时，他们不会从头开始思考。就像你在阅读这篇文章时，你会根据以前的知识理解每个单词，而不是舍弃一切，从字母开始重新学习。换句话说，你的思维有延续性。”

如同卷积神经网络（Convolutional Neural Network, CNN）在计算机视觉领域深度学习模型的地位，循环神经网络（Recurrent Neural Network，RNN）同样对计算机听觉、时间序列预测、自然语言处理（Natural Language Processing，NLP）做出了巨大贡献。
使用循环神经网络最重要的目的就是解决输入数据的次序问题（当前时刻输入的信息可能受前一时刻输出的影响，存在时序关联性）。比如，对于人们日常对话中的语音和文本而言：播放一段录音和倒放一段录音、正着读一段文字和倒着读一段文字所能获取的信息并不相同（当然，通过一定训练能听懂的唱跳rap古神语或阿米诺斯除外）。
因此，为解决这一类需要捕捉序列数据中的时序依赖关系的问题，基于传统机器学习中包含输入、隐藏、输出三层的神经网络结构演变出的循环神经网络模型，通过引入一个递归、延迟或称作循环的单元结构来建立输入信息之间的时序依赖关系，从而允许信息在网络中传递并保持一定的记忆。