【学习笔记】循环神经网络

最新推荐文章于 2024-09-12 20:37:28 发布

ColinCooper

最新推荐文章于 2024-09-12 20:37:28 发布

阅读量173

点赞数

分类专栏：学习笔记文章标签： rnn 深度学习循环神经网络人工智能

本文链接：https://blog.csdn.net/colincooper/article/details/130001208

版权

4 篇文章 0 订阅

订阅专栏

本文介绍了循环神经网络的基础知识，包括序列数据的概念，语言模型在自然语言处理中的应用，以及RNN的基本结构和优缺点。接着，讨论了为解决梯度消失问题引入的GRU和LSTM，特别是它们的门控机制如何帮助更好地处理长期依赖问题。

摘要由CSDN通过智能技术生成

循环神经网络学习笔记

课程来源于“深度之眼”机构的网课https://ai.deepshare.net/

语言模型用于自然语言处理
- NLP将文本视为离散时间序列，按照时间步t分割，文本是t的输出或标签。
- 语言模型实际是求一句话中，所有词（字）联合概率。
- 每个时间步t受上一时间步影响，计算量指数级增长。

RNN能够循环使用网络层参数，即权重矩阵（u,v,w）,避免参数激增，引入隐藏状态H记录历史信息，处理数据前后关联。
- RNN折叠状态，输入x，经权重u进入隐层，隐层接受x和上一时间步t-1的隐藏状态和权重v的信息，经权重w输出
- RNN展开状态，ht-1将历史信息经权重v传入当前时间步t的隐藏状态，同时，当前输入xt共同作用，输出当前时间步t的输出
隐藏状态
- 记录历史信息，处理数据关联性
- 激活函数用Tanh，输出限制在（-1，1）
- RNN特性
  - 优势
    - 隐藏状态H可捕捉截至当前时间步序列的历史信息
    - 参数循环使用，数量不随时间步增长而增长
  - 劣势
    - 梯度随时间t指数变化，易面临梯度爆炸、消失。如，当权重Whh>1梯度爆炸、<1则梯度消失
RNN构建语言模型
RNN反向传播
- 通过穿越时间反向传播
- 通过计算图，理解推导公式（略）