RNN

可又不甘懦弱

于 2020-11-29 19:37:29 发布

阅读量193

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/T82648264/article/details/110351138

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

补充：

RNN 结构详解

一文搞懂RNN（循环神经网络）基础篇

相比与图片、视频

更多的数据是文本、语音

这些会有时间先后顺序
在这里插入图片描述
每个单词，用向量来表示

【5，1】 5个词或5句话用1维向量表示

【5，100】 5个词或5句话用100维向量表示

【5，1000】 5个词或5句话用1000维向量表示

时间序列
在这里插入图片描述

维度太高

还有相近词的语义没有考虑

在这里插入图片描述
用cos

存取数据

batch每次送多少进行运算
在这里插入图片描述

传统的神经网络

在这里插入图片描述

RNN是可以利用之前的信息

比如

我出生在中国，所以我说____

RNN会结合前面的句子，预测出 “汉语”的可能性最大

序列模型类型

语音识别

情感分类

机器翻译

在这里插入图片描述

为什么在序列模型使用CNN等神经网络效果不好

序列数据前后之间是有很强的关联性
。如：曾经有一份真挚的感情，摆在我面前，我没有去_____？
序列数据的输入输出长度不固定

循环神经网络RNN

循环（递归）神经网络（RNN）是神经网络的一种。RNN将状态在自身网络中循环传递，可以接受时间序列结构输入。

类型

一对一
一对多
多对一
多对多
同步多对多
在这里插入图片描述

基础RNN介绍

相比与图片、视频

更多的数据是文本、语音

这些会有时间先后顺序

在这里插入图片描述
中间的代表隐藏层，会把前一个细胞或者单元的状态传递给后一个

所有 cell 的 U V W 参数共享，

在这里插入图片描述
这里有两个激活函数、两个偏置

每一个cell（圆圈）有两个输入，分别是前一个cell 的状态和当前序列的输入x

每个cell：有两个输出，当前cell状态和 cell的预测输出o

g1 一般用 tanh / relu
g2 一把用 sigmoid（一个输出时用） / softmax（多个输出时用）

在这里插入图片描述
意思是说

输出受到前面时刻的隐层状态的影响

就是

会兼顾上下文
会兼顾语义
会兼顾先后顺序

序列生成案列

在一个序列中，会加 s 和 e ，视为整个序列的一部分
在这里插入图片描述

这里输入的词的表示方式

词的表示

one_hot编码表示
建立一个所有词的词库，包含（开始和结束表示）

在这里插入图片描述

输出的表示 softmax

这里的含义就是

假设现在已经确定有 “我” 这个词了

那么下一个输出的概率就是一个条件概率

也就是已知 “我” 的条件下，预测出现 “昨天”的概率是多少，出现 “迟到” 的概率是多少…，出现 “了” 的概率是多少，也包括出现本身 “我” 的概率

这些概率那个一个最大，即是下一个的输出

比如这里输出我，输出前一个 cell 的状态，最终得到出现昨天的概率最大，所以得到的结果是昨天，这样一直下去
在这里插入图片描述
加入有3000个词，就会有3000个概率值

每一个时刻的输出是所有词的概率值的向量

使用 softmax 来产生计算概率

矩阵运算表示

m 代表词的个数

n 是一个手动指定的长度，通常用来指定某一个时刻 cell 的状态输出大小
在这里插入图片描述

交叉熵损失

对于神经网络，基本都要计算它的损失

总误差就是各个时刻词的误差之和
在这里插入图片描述

RNN 时间（时序）反向传播算法（BPTT）

RNN 有时间的概念

这里的U V W 是共享参数

梯度：参数调整
在这里插入图片描述

求不同参数导数的步骤

在这里插入图片描述

最后一个cell的ds：计算最后一个时刻交叉熵损失对于s_t的梯度，记忆交叉熵损失对于st ,V，by的导数

最后一个前面cell的ds：·求出当前层损失对于当前隐层状态输出值st的梯度+上一层相对于st的梯度

每一个cell 导数的计算过程

在这里插入图片描述
反向传播，梯度更新参数过程，不断的优化参数

这里是 softmax
在这里插入图片描述

在这里插入图片描述

梯度消失与梯度爆炸

在这里插入图片描述

RNN 总结

前项传播：主要是

两个输入，xt 和 st-1
两个输出，st 和 ot

在这里插入图片描述

反向传播，要优化参数

每一个cell 都是先求出st的偏导数，再求其他参数
在这里插入图片描述

案例：手写RNN前项传播和反向传播

在这里插入图片描述

前向传播实现

单个cell的前向传播

保存当前cell的一些输入输出值，反向传播要使用

隐藏输出计算和cell的预测输出计算
在这里插入图片描述

代码

在这里插入图片描述

所有cell 的前项传播实现

有s0、x序列、参数

确定输出x序列的形状 m 个词, 1维 ,T个时刻

比如下图，X的形状就是 5个词，编码后每个词为一个一维向量，6个时刻

在这里插入图片描述

完整代码

在这里插入图片描述

测试

在这里插入图片描述

x序列一共有3个词，每个词的形状都是3x1（编码后），时刻有4个，因为多加了一个s ,e，

其他参数维度是手动指定的

看这个图理解
在这里插入图片描述
每一次输出，都会出现这3个词的概率，选择概率最大的

反向传播代码

也同样分为单个和所有

所有就是通过循环直接调用单个

比如下面这个就是一个单个反向传播
在这里插入图片描述

按顺序，计算所有需要的导数，并保存
在这里插入图片描述

在这里插入图片描述

单个cell的反向传播
在这里插入图片描述

多个cell的反向传播
假设知道了所有时刻相对于损失的的ds梯度值

测试

在这里插入图片描述
这里ds是所有损失的的梯度值

在这里插入图片描述

1、每个cell的st由两部分组成
2、不同时刻，对于U，W，ba这些参数需要相加
在这里插入图片描述

完整代码实现
在这里插入图片描述

测试

在这里插入图片描述
那么接下来，我们看看RNN的一些改进结构，这里大家只要了解相关结构以及作用即可，不需要会公式的推

GRU

首先回顾一下RNN的前向传播结构

在这里插入图片描述

在这里插入图片描述
zt 和 rt 的共同作用都是为了让前面的记忆能保存更多的当前的cell

在RNN这种记忆不是太多

就是词太多，后面的传过去的已经几乎没有

所以为了增强这个记忆，设置了这两个参数

在这里插入图片描述

LSTM

三个输入，三个输出
在这里插入图片描述

一对一

多对一（情感分析、文本分类）
异步多对多（翻译）
同步的多对多（文本生成）
在这里插入图片描述

seq2seq与Attention机制

seq2seq

在这里插入图片描述

可又不甘懦弱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RNN

相比与图片、视频更多的数据是文本、语音这些会有时间先后顺序每个单词，用向量来表示【5，1】 5个词或5句话用1维向量表示【5，100】 5个词或5句话用100维向量表示【5，1000】 5个词或5句话用1000维向量表示时间序列维度太高还有相近词的语义没有考虑用cos存取数据batch每次送多少进行运算序列模型类型语音识别情感分类机器翻译为什么在序列模型使用CNN等神经网络效果不好序列数据前后之间是有很强的关联性。如：曾经有一
复制链接

扫一扫

专栏目录

可又不甘懦弱 CSDN认证博客专家 CSDN认证企业博客

码龄4年

23: 原创

106万+: 周排名

180万+: 总排名

1万+: 访问

: 等级

281: 积分

4: 粉丝

7: 获赞

5: 评论

37: 收藏

私信

关注

热门文章

分类专栏

kylin 1篇
python 3篇
面试笔记 1篇
爬虫 2篇
深度学习 6篇
机器学习 4篇

最新评论

Python多维数组拉平到一维
water___Wang: 厉害了~
词云
LaoYuanPython: 抢到沙发，谢谢分享！原创不易，必须支持！伙计，加油! 最后拉个票，本人正参与博客之星评选，1月24日前每天都可投票，敬请支持！谢谢！投票链接：[code=python] https://bss.csdn.net/m/topic/blog_star2020/detail?username=laoyuanpython [/code] 或到老猿博文首页内的置顶博文跳转！
weibo
兴趣使然的程序猿: 挺不错的，一下子很多大佬都出现在我这个小白的视野中了
卷积神经网络学习笔记
不正经的kimol君: 大神解释得很详细，点赞
回归项目实例
不正经的kimol君: 好文，鉴定完毕！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。