RNN

背景

RNN(循环神经网络) 相比其他类型的神经网络,rnn是由记忆的神经网络,会把之前的信息保存在网络中然后在之后的计算中反复使用。
为什么会有这样的网络出现呢?
在语言识别与自然语言处理中,输入的序列之间是有时间的联系的,或是说序列与序列之间是有联系的,比如文字处理中同一个词在不同的句子可能是不同的意思,这个时候就必须以这个词结合上下文关系来判别这个词的真正意思。比如一个语言识别的订票系统,输出出发地与目的地。比如有两句话“我从北京出发到深圳”,与“我从深圳出发到北京”,在dnn中两句话都有“北京”这个词汇,但是dnn无法存储上下文间的联系,所以两个句子都有北京,输入北京输出的结果也应该是一样的,但是这样就不符合实际的需求了,比如第一句中的北京是出发地,可以联系上一个字中的“从”得知是出发地,第二句可以联系上一个字的到“到”得知是目的地。然后一个句子的长短我们是无法预知的,在dnn中无法很好的设计网络模型。

  • 总结
  1. 是输入和输出数据在不同例子中可以有不同的长度
  2. 一个像这样单纯的神经网络结构,它并不共享从文本的不同位置上学到的特征。无法联系上下文。

网络结构

在这里插入图片描述
在这里插入图片描述
S 1 = g s ( W S S 0 + W x X 1 + b s ) (2.1) S_1=g_s(W_SS_0+W_xX_1+b_s) \tag{2.1} S1=gs(WSS0+WxX1+bs)(2.1)
g s ( ) g_s() gs()通常为tanh/Relu激活函数, S 0 S_0 S0通常为全0向量
O 1 = g o ( W O S 1 + b o ) (2.2) O_1=g_o(W_OS_1+b_o) \tag{2.2} O1=go(WOS1+bo)(2.2)
g o ( ) g_o() go()取决于输出的y,如果是二分类问题的话就为sigmoid,如果为k分类的话,就选用softmax作为激活函数。
S t = g s ( W S S t − 1 + W x X t ) (2.3) S_t=g_s(W_SS_t-1+W_xX_t)\tag{2.3} St=gs(WSSt1+WxXt)(2.3)

O t = g o ( W O S t + b o ) (2.4) O_t=g_o(W_OS_t+b_o)\tag{2.4} Ot=go(WOSt+bo)(2.4)

在这里插入图片描述

RNN的类型

在这里插入图片描述

  1. 简单神经网络模型
  2. 一对多:用在比如说情感问题分类,输入一个电影的评论最后输出电影是正面评价或是负面评价。
  3. 一对多:用在比如音乐生成,这种模型的特点是 x t = S t − 1 x_t=S_{t-1} xt=St1, x t x_t xt为t时刻的输入, y t − 1 y_{t-1} yt1为t-1时刻的输出。
  4. 多对多:输入长度与输出长度相同(比如命名实体识别)。输入长度与输出长度不同(比如机器翻译):网络结构为编码器解码器两部分。

RNN bptt与梯度消失

参考:RNN梯度消失与爆炸的原因

参考资料

1)深度学习 李宏毅
2)深度学习 吴恩达

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值