【NPL自然语言处理】带你迅速了解传统RNN模型

小言从不摸鱼

已于 2024-09-15 00:12:45 修改

阅读量1.3k

点赞数 74

分类专栏： NLP自然语言处理文章标签：深度学习人工智能自然语言处理 python rnn 神经网络

于 2024-09-12 19:12:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_76820214/article/details/142183580

版权

NLP自然语言处理专栏收录该内容

9 篇文章 2 订阅

订阅专栏

目录

🍔 什么是RNN模型

🍔 传统RNN的内部结构图

1.1 RNN结构分析

1.2 使用Pytorch构建RNN模型

1.3 传统RNN优缺点

1 传统RNN的优势

2 传统RNN的缺点

3 梯度消失或爆炸介绍

学习目标

🍀 了解传统RNN的内部结构及计算公式.

🍀 掌握Pytorch中传统RNN工具的使用.

🍀 了解传统RNN的优势与缺点.

🍔 什么是RNN模型

RNN(Recurrent Neural Network), 中文称作循环神经网络, 它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征, 一般也是以序列形式进行输出.

一般单层神经网络结构:

RNN单层网络结构:

以时间步对RNN进行展开后的单层网络结构:

RNN的循环机制使模型隐层上一时间步产生的结果, 能够作为当下时间步输入的一部分(当下时间步的输入除了正常的输入外还包括上一步的隐层输出)对当下时间步的输出产生影响.

🐼 RNN模型的作用

因为RNN结构能够很好利用序列之间的关系, 因此针对自然界具有连续性的输入序列, 如人类的语言, 语音等进行很好的处理, 广泛应用于NLP领域的各项任务, 如文本分类, 情感分析, 意图识别, 机器翻译等.

🍔 传统RNN的内部结构图

1.1 RNN结构分析

结构解释图:

内部结构分析:
- 我们把目光集中在中间的方块部分, 它的输入有两部分, 分别是h(t-1)以及x(t), 代表上一时间步的隐层输出, 以及此时间步的输入, 它们进入RNN结构体后, 会"融合"到一起, 这种融合我们根据结构解释可知, 是将二者进行拼接, 形成新的张量[x(t), h(t-1)], 之后这个新的张量将通过一个全连接层(线性层), 该层使用tanh作为激活函数, 最终得到该时间步的输出h(t), 它将作为下一个时间步的输入和x(t+1)一起进入结构体. 以此类推.
内部结构过程演示:

根据结构分析得出内部计算公式:ht=tanh(Wt[Xt,ht−1]+bt)ℎ�=��ℎ(��[��,ℎ�−1]+��)
激活函数tanh的作用:
- 用于帮助调节流经网络的值, tanh函数将值压缩在-1和1之间.

1.2 使用Pytorch构建RNN模型

位置: 在torch.nn工具包之中, 通过torch.nn.RNN可调用
nn.RNN类初始化主要参数解释:
- input_size: 输入张量x中特征维度的大小
- hidden_size: 隐层张量h中特征维度的大小
- num_layers: 隐含层的数量
- nonlinearity: 激活函数的选择, 默认是tanh
nn.RNN类实例化对象主要参数解释:
- input: 输入张量x
- h0: 初始化的隐层张量h
nn.RNN使用示例:

# 导入工具包
>>> import torch
>>> import torch.nn as nn
>>> rnn = nn.RNN(5, 6, 1)
>>> input = torch.randn(1, 3, 5)
>>> h0 = torch.randn(1, 3, 6)
>>> output, hn = rnn(input, h0)
>>> output
tensor([[[ 0.4282, -0.8475, -0.0685, -0.4601, -0.8357,  0.1252],
         [ 0.5758, -0.2823,  0.4822, -0.4485, -0.7362,  0.0084],
         [ 0.9224, -0.7479, -0.3682, -0.5662, -0.9637,  0.4938]]],
       grad_fn=<StackBackward>)

>>> hn
tensor([[[ 0.4282, -0.8475, -0.0685, -0.4601, -0.8357,  0.1252],
         [ 0.5758, -0.2823,  0.4822, -0.4485, -0.7362,  0.0084],
         [ 0.9224, -0.7479, -0.3682, -0.5662, -0.9637,  0.4938]]],
       grad_fn=<StackBackward>)

1.3 传统RNN优缺点

1 传统RNN的优势

由于内部结构简单, 对计算资源要求低, 相比之后我们要学习的RNN变体:LSTM和GRU模型参数总量少了很多, 在短序列任务上性能和效果都表现优异.

2 传统RNN的缺点

传统RNN在解决长序列之间的关联时, 通过实践，证明经典RNN表现很差, 原因是在进行反向传播的时候, 过长的序列导致梯度的计算异常, 发生梯度消失或爆炸.

3 梯度消失或爆炸介绍

根据反向传播算法和链式法则, 梯度的计算可以简化为以下公式

其中sigmoid的导数值域是固定的, 在[0, 0.25]之间, 而一旦公式中的w也小于1, 那么通过这样的公式连乘后, 最终的梯度就会变得非常非常小, 这种现象称作梯度消失. 反之, 如果我们人为的增大w的值, 使其大于1, 那么连乘够就可能造成梯度过大, 称作梯度爆炸.
梯度消失或爆炸的危害:
- 如果在训练过程中发生了梯度消失，权重无法被更新，最终导致训练失败; 梯度爆炸所带来的梯度过大，大幅度更新网络参数，在极端情况下，结果会溢出（NaN值）.

🍔 小结

学习了什么是RNN模型:
- RNN(Recurrent Neural Network), 中文称作循环神经网络, 它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征, 一般也是以序列形式进行输出.
学习了RNN模型的作用:
- 因为RNN结构能够很好利用序列之间的关系, 因此针对自然界具有连续性的输入序列, 如人类的语言, 语音等进行很好的处理, 广泛应用于NLP领域的各项任务, 如文本分类, 情感分析, 意图识别, 机器翻译等.

学习了传统RNN的结构并进行了分析;
- 它的输入有两部分, 分别是h(t-1)以及x(t), 代表上一时间步的隐层输出, 以及此时间步的输入, 它们进入RNN结构体后, 会"融合"到一起, 这种融合我们根据结构解释可知, 是将二者进行拼接, 形成新的张量[x(t), h(t-1)], 之后这个新的张量将通过一个全连接层(线性层), 该层使用tanh作为激活函数, 最终得到该时间步的输出h(t), 它将作为下一个时间步的输入和x(t+1)一起进入结构体. 以此类推.
根据结构分析得出了传统RNN的计算公式.
学习了激活函数tanh的作用:
- 用于帮助调节流经网络的值, tanh函数将值压缩在-1和1之间.
学习了Pytorch中传统RNN工具的使用:
- 位置: 在torch.nn工具包之中, 通过torch.nn.RNN可调用.
nn.RNN类初始化主要参数解释:
- input_size: 输入张量x中特征维度的大小.
- hidden_size: 隐层张量h中特征维度的大小.
- num_layers: 隐含层的数量.
- nonlinearity: 激活函数的选择, 默认是tanh.
nn.RNN类实例化对象主要参数解释:
- input: 输入张量x.
- h0: 初始化的隐层张量h.
实现了nn.RNN的使用示例, 获得RNN的真实返回结果样式.
学习了传统RNN的优势:
- 由于内部结构简单, 对计算资源要求低, 相比之后我们要学习的RNN变体:LSTM和GRU模型参数总量少了很多, 在短序列任务上性能和效果都表现优异.
学习了传统RNN的缺点:
- 传统RNN在解决长序列之间的关联时, 通过实践，证明经典RNN表现很差, 原因是在进行反向传播的时候, 过长的序列导致梯度的计算异常, 发生梯度消失或爆炸.
学习了什么是梯度消失或爆炸:
- 根据反向传播算法和链式法则, 得到梯度的计算的简化公式:其中sigmoid的导数值域是固定的, 在[0, 0.25]之间, 而一旦公式中的w也小于1, 那么通过这样的公式连乘后, 最终的梯度就会变得非常非常小, 这种现象称作梯度消失. 反之, 如果我们人为的增大w的值, 使其大于1, 那么连乘够就可能造成梯度过大, 称作梯度爆炸.
梯度消失或爆炸的危害:
- 如果在训练过程中发生了梯度消失，权重无法被更新，最终导致训练失败; 梯度爆炸所带来的梯度过大，大幅度更新网络参数，在极端情况下，结果会溢出（NaN值）.

小言从不摸鱼

关注

74
点赞
踩
50

收藏

觉得还不错? 一键收藏
74
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小言从不摸鱼 CSDN认证博客专家 CSDN认证企业博客

码龄2年

人工智能领域新星创作者

62: 原创

6: 周排名

3304: 总排名

10万+: 访问

: 等级

9296: 积分

5520: 粉丝

4069: 获赞

4376: 评论

3286: 收藏

私信

关注

热门文章

分类专栏

最新评论

探索人工智能：深度解析未来科技的核心驱动力
小言从不摸鱼: 探索人工智能：深度解析未来科技的核心驱动力
【NLP自然语言处理】探索注意力机制：解锁深度学习的语言理解新篇章
青云交: 阅读这篇博文，就像踏上了一段精彩的旅程。作者的文字充满魅力，引领着我不断前行。文章的架构合理，层次分明，让我在阅读中感受到了知识的力量。丰富的事例和权威的引文，为文章增添了深度和广度。
【面试宝典】深入Python高级：直戳痛点的题目演示（下）
2401_87126405: 博主对文章细节的把握让人印象深刻，每一个细节都为文章增色不少。文章内容丰富、结构清晰，让我在阅读过程中收获颇丰。期待博主未来能持续带来更多有价值的文章。
【NLP自然语言处理】探索注意力机制：解锁深度学习的语言理解新篇章
2401_87126405: 博主的文章太出色了！内容丰富多样，论述清晰明了，代码实例多多，读来趣味十足。专业素养很高且用心，为读者提供了宝贵的知识财富。从基础概念切入，深入浅出地讲解编程核心，能感觉到博主的热爱与敬业，把复杂知识讲得简单易懂，使读者轻松掌握知识并保持学习的兴趣。
【NLP自然语言处理】探索注意力机制：解锁深度学习的语言理解新篇章
易辰君: 文章中提到的NLP自然语言的部分引起了我的共鸣，我之前在项目中遇到过类似的情况，你提供的建议非常实用。不过我有一点小疑问，针对你推荐的深度学习工具，是否有特定的配置或设置能提高效率？非常希望能了解更多细节。

最新文章

2024

目录

评论 74

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。