【NPL自然语言处理】带你迅速了解传统RNN模型

4195cb28712e47eaaf2c011a0a0dece0.jpeg

目录

 

🍔 什么是RNN模型

🍔 传统RNN的内部结构图

1.1 RNN结构分析

1.2 使用Pytorch构建RNN模型

1.3 传统RNN优缺点

1 传统RNN的优势

2 传统RNN的缺点

3 梯度消失或爆炸介绍

🍔 小结


 

 

学习目标

🍀 了解传统RNN的内部结构及计算公式.

🍀 掌握Pytorch中传统RNN工具的使用.

🍀 了解传统RNN的优势与缺点.

🍔 什么是RNN模型

  • RNN(Recurrent Neural Network), 中文称作循环神经网络, 它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征, 一般也是以序列形式进行输出.

 

  • 一般单层神经网络结构:


0efdc0396e614ec28922e5f6d0d3ec92.png

 

  • RNN单层网络结构:


8c23384e63fc4b6f988ac7d505a8d6d8.gif

 

  • 以时间步对RNN进行展开后的单层网络结构:


14cf692705094f4a8ec5b363903fd498.gif

 

  • RNN的循环机制使模型隐层上一时间步产生的结果, 能够作为当下时间步输入的一部分(当下时间步的输入除了正常的输入外还包括上一步的隐层输出)对当下时间步的输出产生影响.

 🐼 RNN模型的作用

  • 因为RNN结构能够很好利用序列之间的关系, 因此针对自然界具有连续性的输入序列, 如人类的语言, 语音等进行很好的处理, 广泛应用于NLP领域的各项任务, 如文本分类, 情感分析, 意图识别, 机器翻译等.

🍔 传统RNN的内部结构图

1.1 RNN结构分析


41b341a7850a48f09f9d38e61c782de9.png

 

  • 结构解释图:


8c5b05cb89af4e2e87f8be2f933894c8.png

 

  • 内部结构分析:

    • 我们把目光集中在中间的方块部分, 它的输入有两部分, 分别是h(t-1)以及x(t), 代表上一时间步的隐层输出, 以及此时间步的输入, 它们进入RNN结构体后, 会"融合"到一起, 这种融合我们根据结构解释可知, 是将二者进行拼接, 形成新的张量[x(t), h(t-1)], 之后这个新的张量将通过一个全连接层(线性层), 该层使用tanh作为激活函数, 最终得到该时间步的输出h(t), 它将作为下一个时间步的输入和x(t+1)一起进入结构体. 以此类推.
  • 内部结构过程演示:


678ed9394d8f4cedae0e7b130448fde3.gif

 

  • 根据结构分析得出内部计算公式:ht=tanh(Wt[Xt,ht−1]+bt)ℎ�=���ℎ(��[��,ℎ�−1]+��)

  • 激活函数tanh的作用:

    • 用于帮助调节流经网络的值, tanh函数将值压缩在-1和1之间.


28c9a4d8063344d49ef3984c5bb36290.gif

 

1.2 使用Pytorch构建RNN模型

  • 位置: 在torch.nn工具包之中, 通过torch.nn.RNN可调用

  • nn.RNN类初始化主要参数解释:

    • input_size: 输入张量x中特征维度的大小
    • hidden_size: 隐层张量h中特征维度的大小
    • num_layers: 隐含层的数量
    • nonlinearity: 激活函数的选择, 默认是tanh
  • nn.RNN类实例化对象主要参数解释:

    • input: 输入张量x
    • h0: 初始化的隐层张量h
  • nn.RNN使用示例:

# 导入工具包
>>> import torch
>>> import torch.nn as nn
>>> rnn = nn.RNN(5, 6, 1)
>>> input = torch.randn(1, 3, 5)
>>> h0 = torch.randn(1, 3, 6)
>>> output, hn = rnn(input, h0)
>>> output
tensor([[[ 0.4282, -0.8475, -0.0685, -0.4601, -0.8357,  0.1252],
         [ 0.5758, -0.2823,  0.4822, -0.4485, -0.7362,  0.0084],
         [ 0.9224, -0.7479, -0.3682, -0.5662, -0.9637,  0.4938]]],
       grad_fn=<StackBackward>)

>>> hn
tensor([[[ 0.4282, -0.8475, -0.0685, -0.4601, -0.8357,  0.1252],
         [ 0.5758, -0.2823,  0.4822, -0.4485, -0.7362,  0.0084],
         [ 0.9224, -0.7479, -0.3682, -0.5662, -0.9637,  0.4938]]],
       grad_fn=<StackBackward>)

1.3 传统RNN优缺点

1 传统RNN的优势

  • 由于内部结构简单, 对计算资源要求低, 相比之后我们要学习的RNN变体:LSTM和GRU模型参数总量少了很多, 在短序列任务上性能和效果都表现优异.

2 传统RNN的缺点

  • 传统RNN在解决长序列之间的关联时, 通过实践,证明经典RNN表现很差, 原因是在进行反向传播的时候, 过长的序列导致梯度的计算异常, 发生梯度消失或爆炸.

3 梯度消失或爆炸介绍

根据反向传播算法和链式法则, 梯度的计算可以简化为以下公式

c837f1e389464106a89f66a355b8f492.png

  • 其中sigmoid的导数值域是固定的, 在[0, 0.25]之间, 而一旦公式中的w也小于1, 那么通过这样的公式连乘后, 最终的梯度就会变得非常非常小, 这种现象称作梯度消失. 反之, 如果我们人为的增大w的值, 使其大于1, 那么连乘够就可能造成梯度过大, 称作梯度爆炸.

  • 梯度消失或爆炸的危害:

    • 如果在训练过程中发生了梯度消失,权重无法被更新,最终导致训练失败; 梯度爆炸所带来的梯度过大,大幅度更新网络参数,在极端情况下,结果会溢出(NaN值).

🍔 小结

  • 学习了什么是RNN模型:

    • RNN(Recurrent Neural Network), 中文称作循环神经网络, 它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征, 一般也是以序列形式进行输出.
  • 学习了RNN模型的作用:

    • 因为RNN结构能够很好利用序列之间的关系, 因此针对自然界具有连续性的输入序列, 如人类的语言, 语音等进行很好的处理, 广泛应用于NLP领域的各项任务, 如文本分类, 情感分析, 意图识别, 机器翻译等.
  • 学习了传统RNN的结构并进行了分析;

    • 它的输入有两部分, 分别是h(t-1)以及x(t), 代表上一时间步的隐层输出, 以及此时间步的输入, 它们进入RNN结构体后, 会"融合"到一起, 这种融合我们根据结构解释可知, 是将二者进行拼接, 形成新的张量[x(t), h(t-1)], 之后这个新的张量将通过一个全连接层(线性层), 该层使用tanh作为激活函数, 最终得到该时间步的输出h(t), 它将作为下一个时间步的输入和x(t+1)一起进入结构体. 以此类推.
  • 根据结构分析得出了传统RNN的计算公式.

  • 学习了激活函数tanh的作用:

    • 用于帮助调节流经网络的值, tanh函数将值压缩在-1和1之间.
  • 学习了Pytorch中传统RNN工具的使用:

    • 位置: 在torch.nn工具包之中, 通过torch.nn.RNN可调用.
  • nn.RNN类初始化主要参数解释:

    • input_size: 输入张量x中特征维度的大小.
    • hidden_size: 隐层张量h中特征维度的大小.
    • num_layers: 隐含层的数量.
    • nonlinearity: 激活函数的选择, 默认是tanh.
  • nn.RNN类实例化对象主要参数解释:

    • input: 输入张量x.
    • h0: 初始化的隐层张量h.
  • 实现了nn.RNN的使用示例, 获得RNN的真实返回结果样式.

  • 学习了传统RNN的优势:

    • 由于内部结构简单, 对计算资源要求低, 相比之后我们要学习的RNN变体:LSTM和GRU模型参数总量少了很多, 在短序列任务上性能和效果都表现优异.
  • 学习了传统RNN的缺点:

    • 传统RNN在解决长序列之间的关联时, 通过实践,证明经典RNN表现很差, 原因是在进行反向传播的时候, 过长的序列导致梯度的计算异常, 发生梯度消失或爆炸.
  • 学习了什么是梯度消失或爆炸:

    • 根据反向传播算法和链式法则, 得到梯度的计算的简化公式:其中sigmoid的导数值域是固定的, 在[0, 0.25]之间, 而一旦公式中的w也小于1, 那么通过这样的公式连乘后, 最终的梯度就会变得非常非常小, 这种现象称作梯度消失. 反之, 如果我们人为的增大w的值, 使其大于1, 那么连乘够就可能造成梯度过大, 称作梯度爆炸.
  • 梯度消失或爆炸的危害:

    • 如果在训练过程中发生了梯度消失,权重无法被更新,最终导致训练失败; 梯度爆炸所带来的梯度过大,大幅度更新网络参数,在极端情况下,结果会溢出(NaN值).

 

评论 74
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值