RNN

我没吐但是我秃了

于 2019-11-29 15:36:35 发布

阅读量197

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_41009913/article/details/103309751

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

背景

RNN(循环神经网络) 相比其他类型的神经网络，rnn是由记忆的神经网络，会把之前的信息保存在网络中然后在之后的计算中反复使用。
为什么会有这样的网络出现呢？
在语言识别与自然语言处理中，输入的序列之间是有时间的联系的，或是说序列与序列之间是有联系的，比如文字处理中同一个词在不同的句子可能是不同的意思，这个时候就必须以这个词结合上下文关系来判别这个词的真正意思。比如一个语言识别的订票系统，输出出发地与目的地。比如有两句话“我从北京出发到深圳”，与“我从深圳出发到北京”，在dnn中两句话都有“北京”这个词汇，但是dnn无法存储上下文间的联系，所以两个句子都有北京，输入北京输出的结果也应该是一样的，但是这样就不符合实际的需求了，比如第一句中的北京是出发地，可以联系上一个字中的“从”得知是出发地，第二句可以联系上一个字的到“到”得知是目的地。然后一个句子的长短我们是无法预知的，在dnn中无法很好的设计网络模型。

总结

是输入和输出数据在不同例子中可以有不同的长度
一个像这样单纯的神经网络结构，它并不共享从文本的不同位置上学到的特征。无法联系上下文。

网络结构

在这里插入图片描述

$S_1=g_s(W_SS_0+W_xX_1+b_s) \tag{2.1}$
$g_s()$ 通常为tanh/Relu激活函数， $S_0$ 通常为全0向量
$O_1=g_o(W_OS_1+b_o) \tag{2.2}$
$g_o()$ 取决于输出的y，如果是二分类问题的话就为sigmoid，如果为k分类的话，就选用softmax作为激活函数。
$S_t=g_s(W_SS_t-1+W_xX_t)\tag{2.3}$

$O_t=g_o(W_OS_t+b_o)\tag{2.4}$

在这里插入图片描述

RNN的类型

在这里插入图片描述

简单神经网络模型
一对多：用在比如说情感问题分类，输入一个电影的评论最后输出电影是正面评价或是负面评价。
一对多：用在比如音乐生成，这种模型的特点是 $x_t=S_{t-1}$ , $x_t$ 为t时刻的输入， $y_{t-1}$ 为t-1时刻的输出。
多对多：输入长度与输出长度相同（比如命名实体识别）。输入长度与输出长度不同（比如机器翻译）：网络结构为编码器解码器两部分。

RNN bptt与梯度消失

参考：RNN梯度消失与爆炸的原因

参考资料

1）深度学习李宏毅
2）深度学习吴恩达

我没吐但是我秃了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RNN

背景RNN(循环神经网络) 相比其他类型的神经网络，rnn是由记忆的神经网络，会把之前的信息保存在网络中然后在之后的计算中反复使用。为什么会有这样的网络出现呢？在语言识别与自然语言处理中，输入的序列之间是有时间的联系的，或是说序列与序列之间是有联系的，比如文字处理中同一个词在不同的句子可能是不同的意思，这个时候就必须以这个词结合上下文关系来判别这个词的真正意思。比如一个语言识别的订票系统，输...
复制链接

扫一扫

专栏目录