Training RNNs as Fast as CNNs

  1. Introduction
    第一段说深度学习目前的最新进展是增加模型能力和相关计算,这涉及了更大更深的网络,相应地网络的参数就会增大, 到目前位置计算速度仍然是深度学习研究的瓶颈
    第二段内容是CNN和attention可以利用多线程和GPU加快计算速度,但是RNN仍然不适合并行化,因为h t 的计算前提是h t1 的计算完成
    第三段也就是本文的主要工作,将RNN改进成SRU, c t 的计算仍然依赖于c t1 , 但是h t 依赖与h t1 的计算去掉了。速度持平或优于CNN.
    第四段说明改进的SRU在很多任务的测评上,不仅速度快,而且性能非常好

  2. Method
     此处首先给出LSTM计算h t 的公式:
     这里写图片描述    (1)
     这里写图片描述     (2)
     这里写图片描述  (3)
     这里写图片描述       (4)
     这里写图片描述    (5)
     这里写图片描述           (6)
     由上面的公式可得:如果要计算公式(6)中的h t , 必须先计算公式(4),要计算公式(4),必选计算公式(3),而公式(3)中的h t1 必须先计算出来,也就是h t 的计算依赖于h t1
     举个例子,句子长度为3,sent = {x 1 , x 2 , x 3 }, 要计算x 3 的隐层状态h 3 必选先计算x 2 的隐层状态h 2 , 要计算h 2 必选先计算x 1 的隐层状态h 1 , 三个隐层状态依次计算的顺序是h 1 , 然后h 2 , 最后是h 3 , 由于存在依赖关系,所以不能并行计算。计算所需要的时间就会很长。
     改进SRU的计算公式:
     这里写图片描述
    SRU公式中h t 的计算不再依赖与h t1 , 公式(3)~(5)在时间序列上1,…,t,…n上同时计算出来,也就是可以并行运算, 公式(6)不涉及矩阵运算,所以耗费事件很少。

另外本文还用来了
(1)skip connections: 出自文章
(2)highway connections: 出自文章
(3)variational dropout:出自文章

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值