【机器学习】从RNN到Attention上篇 循环神经网络RNN,门控循环神经网络LSTM

打算写一个从RNN到Attention的系列文章,今天先介绍一下循环神经网络RNN和门控循环神经网络LSTM,很多内容为笔者自己的理解,难免有疏漏之处,欢迎大家探讨。
文章有一些修改,因为是在本人的知乎专栏里刘改的,不想来回修改,大家可以去【从RNN到Attention】上篇 循环神经网络RNN,门控循环神经网络LSTM

一.为什么RNN比DNN更适合时间序列问题

DNN求解时序问题

对于一个时间序列问题,以单词预测为例,已知 x 1 , x 2 , x 3 , … … , x t x_1,x_2,x_3,……,x_t x1,x2,x3,,xt,求解t时刻的单词 x t + 1 x_{t+1} xt+1,那么从概率的角度,该问题可以建模为求解 a r g m a x θ P ( x t + 1 ∣ x 1 , x 2 , . . . . x t , θ ) argmax_{\theta}P(x_{t+1}|x_{1},x_2,....x_t,\theta) argmaxθP(xt+1x1,x2,....xtθ),其中 θ \theta θ为模型参数。如果我们用DNN求解该问题,则模型输入输出可以分别表示为
X = [ x 1 , x 2 , x 3 , … … , x t − 1 , x t ] X=[x_1,x_2,x_3,……,x_{t-1},x_t] X=[x1,x2,x3,,xt1,xt]
Y = x t + 1 Y=x_{t+1} Y=xt+1

似乎没有什么问题,但是假设一个单词的维度为 d d d,则 X X X的维度为 d ∗ t d*t dt,仅考虑从输入到第一层隐藏层,且隐藏层的维度为 m m m,那么其中的参数总量为 d ∗ t ∗ m d*t*m dtm,如下图所示,随着t的增长,参数量的增长是非常恐怖的,而且采用这种建模方式, x 1 , x 2 , x 3 , … … x t x_1,x_2,x_3,……x_t x1,x2,x3,xt对于模型来说是等价的,丢失了他们的时序关系,因此DNN处理时序问题存在

  • 1.参数量过大
  • 2.丢失了时序关系
    DNN参数示意图,自己画的,有点丑

RNN求解时序问题

RNN的结构如图表示
RNN网络结构图
其中 x i x_{i} xi为输入,对应单词预测问题即为单词的向量表示, h i h_{i} hi为隐含层(hidden layer),是循环神经网络中特有的网络结构,其中
H t = ϕ ( X t W x h + H t − 1 W h h + b h ) . \boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh} + \boldsymbol{b}_h). Ht=ϕ(XtWxh+Ht1W

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值