【DL水记】循环神经网络RNN的前世今生,Transformer的崛起,Mamba模型

本文详细介绍了循环神经网络(RNN)、长短期记忆网络(LSTM)、门控循环单元(GRU)以及Transformer模型在处理时间序列数据中的作用,探讨了它们在解决长期依赖问题和捕捉序列信息上的优势与改进。同时还提到了VisionTransformer在计算机视觉领域的应用和Mamba模型在高效推理方面的突破。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

RNN网络简介

“当人类接触新事物时,他们不会从头开始思考。就像你在阅读这篇文章时,你会根据以前的知识理解每个单词,而不是舍弃一切,从字母开始重新学习。换句话说,你的思维有延续性。”

如同卷积神经网络(Convolutional Neural Network, CNN)在计算机视觉领域深度学习模型的地位,循环神经网络(Recurrent Neural Network,RNN)同样对计算机听觉、时间序列预测、自然语言处理(Natural Language Processing,NLP)做出了巨大贡献。
使用循环神经网络最重要的目的就是解决输入数据的次序问题(当前时刻输入的信息可能受前一时刻输出的影响,存在时序关联性)。比如,对于人们日常对话中的语音和文本而言:播放一段录音和倒放一段录音、正着读一段文字和倒着读一段文字所能获取的信息并不相同(当然,通过一定训练能听懂的唱跳rap古神语或阿米诺斯除外)。
因此,为解决这一类需要捕捉序列数据中的时序依赖关系的问题,基于传统机器学习中包含输入、隐藏、输出三层的神经网络结构演变出的循环神经网络模型,通过引入一个递归、延迟或称作循环的单元结构来建立输入信息之间的时序依赖关系,从而允许信息在网络中传递并保持一定的记忆。

传统RNN单元基本结构
传统RNN网络结构

RNN 网络的基本结构包括一个输入层 x t x_t xt、隐藏层 h t h_t ht(含激活函数Activation Function)、延迟器(循环单元)、输出层 h t h_t ht
在这里插入图片描述

网络中的神经元通过时间步骤连接形成循环:允许信息从一个时间步骤的输出 h t − 1 h_{t-1} ht1通过与输入 X t X_t Xt经过tanh函数激活后,传递至下一个时间步骤输入的一部分
RNN具体计算公式:

h t = t a n h ( W i h x t + b i h + W h h x t − 1 + b h h ) h_t=tanh(W_{ih}x_t+b_{ih}+W_{hh}x_{t-1}+b_{hh}) ht=tanh(Wihxt+b

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wayne_Fine

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值