序列模型和循环网络

Sequence Modeling and Recurrent Networks

Sequence modeling tasks

请添加图片描述

在以往的模型中,各个输入之间是独立分布的 x ( i ) x^{(i)} x(i) 之间是相互独立的,同样输出 y ( i ) y^{(i)} y(i)之间也是相互独立的。

但是在序列模型中,输入输出是一个特定的序列,我们需要用到序列的相关信息。不能把各个输入看作是相互独立的存在。

请添加图片描述

autoregressive prediction
执行序列预测任务,输出依赖于之前的输入

请添加图片描述

Recurrent neural networks 循环神经网络

循环神经会维护一个 隐藏层,每个隐藏层都是通过前一层的隐藏层和当前的输入来计算的。

请添加图片描述

在整个模型中都只有一套 W t t , W h x , W y h , b h , b y W_{tt}, W_{hx}, W_{yh}, b_h, b_y Wtt,Whx,Wyh,bh,by,但是会对每一层都计算一个 h t h_t ht

train

请添加图片描述

RNN 堆叠

通过RNN堆叠可以将每一层做的很深,这里的深是指每一层的隐藏层更深。从x到y要经历更多的隐藏层。

请添加图片描述

激活值/梯度 爆炸 消失

请添加图片描述

请添加图片描述

和其他拥有很深的MLP 网络类似,RNN 也会面临激活值 、梯度值的爆炸或者消失。之前我们使用的normalization (batch-norm\layer-norm)

请添加图片描述

使用 sigmoid函数和tanh函数可以限制激活值和梯度的大小,但是并不能阻止梯度和激活值的消失。

LSTM

使用LSTM可以避免一些问题上的激活值消失

请添加图片描述

LSTM 的结构就扔在这里了,至于怎么工作的,不深究了。。。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值