RNN - LSTM-GRU


前言

为什么引入RNN?

对于传统的神经网络来说,一般输入是不带有时间序列的,比如说输入 学生身体的各个指标进行预测是否是是具有生长缓慢或者是快速的问题,这样的输入一般是固定的序列,并且之间是没有相互影响的。然而对于具有时间先后顺序的这些问题,比如说语音识别,生成语句等问题,这样的传统的神经网络并不能很好训练。

RNN

1.RNN网络结构

在这里插入图片描述
在这里插入图片描述

2.RNN的两个主要应用

一、用于建模表示句子
将句子通过RNN,在最后一个RNN隐藏层得到该句子的表示,其实就是类似于平常的得到一个特征向量。这里就是得到这个句子的表示的特征向量。
用途:得到一个句子的表示,我们可以后续使用判别器进行判别等。
在这里插入图片描述

二、用于表示句子的上下文
这个不同于上面的,这里是表示的句子的额外信息,得到句子的上下文信息。
用途:RNN表示句子的上下文信息,接下来可根据上下文使用语言模型预测下一个单词等。
在这里插入图片描述

3.RNN的两个主要应用对应的不同的Loss

对于这两种不同的应用,一个是在最后的RNN的隐藏层得到句子的表示,就是句子的特征向量。这个loss只用考虑最后的预测结果和真实的label之间的差距即可。
另一个是得到句子的上下文语义,在每一个RNN的隐藏层都是有输出的,这里的输出的loss都是要计算的,所以total loss是所有的loss加在一起。

4.针对Loss进行反向传播

在这里插入图片描述
我们以这张图为例,只考虑 一个无偏差项的RNN,S0是固定值,没有激活函数。
前向传播:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
而激活函数的图像是;
在这里插入图片描述
可以看出tanh'x都是小于等于1的,则如果说:
w取值0-1之间,t很大的话,tanh‘都小于等于1,则连乘多个tanh’ * W就会越来越小,在越靠近输入层的权重就会几乎为0,也急速hi几乎不更新,这就是梯度消失。
w取值很大,连乘多个tanh’ * W就会趋向于无穷大,梯度过大没导致更新幅度过大,可能会溢出,无法收敛,这就是梯度爆炸。

LSTM

总结

提示:这里对文章进行总结:

例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

**注释:**这里的笔记是参考大神,大神讲解的十分透彻,自己学习了就想总总结自己以后经常来看,所以本文章不做任何的是商业用途,两个大神原文:
https://zhuanlan.zhihu.com/p/31781223

https://zhuanlan.zhihu.com/p/28687529

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
RNN-BiLSTM的全称是循环神经网络双向长短期记忆网络(Recurrent Neural Network Bidirectional Long Short-Term Memory)。它是一种特殊类型的循环神经网络(RNN),通过使用双向的长短期记忆网络(LSTM)来学习长期依赖信息。BiLSTM模型在捕捉文本信息时比单向的LSTM更全面,能够同时捕捉到正向和反向的信息,从而提高了模型的效果。BiLSTM网络在最终的输出层后面通常会增加一个线性层,用于将BiLSTM隐藏层的输出结果投射到具有某种表达标签特征意义的区间。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Pytorch:RNNLSTMGRU、Bi-GRU、Bi-LSTM、梯度消失、梯度爆炸](https://blog.csdn.net/zimiao552147572/article/details/105520740)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [BiLSTM_RNN-LSTM_RNN_short_lstm神经网络_LSTM](https://download.csdn.net/download/weixin_42696271/22387288)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [NLP在线医生-BiLSTM+CRF命名实体识别(二)](https://blog.csdn.net/sinat_28015305/article/details/109551176)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值