RNN - LSTM－GRU

码码姑娘

已于 2022-03-28 21:20:19 修改

阅读量5k

点赞数

分类专栏：论文学习过程文章标签： lstm 图像处理 nlp

于 2022-03-23 15:39:57 首次发布

本文链接：https://blog.csdn.net/qq_45204129/article/details/123686057

版权

论文学习过程专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

前言
为什么引入ＲＮＮ？
RNN
LSTM
总结

前言

为什么引入ＲＮＮ？

对于传统的神经网络来说，一般输入是不带有时间序列的，比如说输入　学生身体的各个指标进行预测是否是是具有生长缓慢或者是快速的问题，这样的输入一般是固定的序列，并且之间是没有相互影响的。然而对于具有时间先后顺序的这些问题，比如说语音识别，生成语句等问题，这样的传统的神经网络并不能很好训练。

RNN

1.RNN网络结构

在这里插入图片描述

２.RNN的两个主要应用

一、用于建模表示句子
将句子通过RNN，在最后一个RNN隐藏层得到该句子的表示，其实就是类似于平常的得到一个特征向量。这里就是得到这个句子的表示的特征向量。
用途：得到一个句子的表示，我们可以后续使用判别器进行判别等。
在这里插入图片描述

二、用于表示句子的上下文
这个不同于上面的，这里是表示的句子的额外信息，得到句子的上下文信息。
用途：RNN表示句子的上下文信息，接下来可根据上下文使用语言模型预测下一个单词等。
在这里插入图片描述

３.RNN的两个主要应用对应的不同的Loss

对于这两种不同的应用，一个是在最后的RNN的隐藏层得到句子的表示，就是句子的特征向量。这个loss只用考虑最后的预测结果和真实的label之间的差距即可。
另一个是得到句子的上下文语义，在每一个RNN的隐藏层都是有输出的，这里的输出的loss都是要计算的，所以total　loss是所有的loss加在一起。

４.针对Loss进行反向传播

在这里插入图片描述
我们以这张图为例，只考虑　一个无偏差项的RNN，S０是固定值，没有激活函数。
前向传播：

而激活函数的图像是；

可以看出ｔａｎｈ＇ｘ都是小于等于１的，则如果说：
ｗ取值０－１之间，ｔ很大的话，ｔａｎｈ‘都小于等于１，则连乘多个ｔａｎｈ’　＊　W就会越来越小，在越靠近输入层的权重就会几乎为０，也急速hi几乎不更新，这就是梯度消失。
ｗ取值很大，连乘多个ｔａｎｈ’　＊　W就会趋向于无穷大，梯度过大没导致更新幅度过大，可能会溢出，无法收敛，这就是梯度爆炸。

LSTM

总结

提示：这里对文章进行总结：

例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

**注释：**这里的笔记是参考大神，大神讲解的十分透彻，自己学习了就想总总结自己以后经常来看，所以本文章不做任何的是商业用途，两个大神原文：
https://zhuanlan.zhihu.com/p/31781223

https://zhuanlan.zhihu.com/p/28687529

码码姑娘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RNN - LSTM－GRU

文章目录前言为什么引入ＲＮＮ？RNN1.RNN网络结构２.RNN的两个主要应用３.RNN的两个主要应用对应的不同的Loss４.针对Loss进行反向传播LSTM总结前言为什么引入ＲＮＮ？对于传统的神经网络来说，一般输入是不带有时间序列的，比如说输入　学生身体的各个指标进行预测是否是是具有生长缓慢或者是快速的问题，这样的输入一般是固定的序列，并且之间是没有相互影响的。然而对于具有时间先后顺序的这些问题，比如说语音识别，生成语句等问题，这样的传统的神经网络并不能很好训练。RNN1.RNN网络结构
复制链接

扫一扫

专栏目录