脑洞大开:非线性RNN居然也可以并行计算?

本文探讨了非线性RNN的并行计算问题,通过数学物理中的“摄动”思想,将其转化为线性RNN的迭代,以实现非线性RNN的并行计算。论文提出了迭代算法,即使得非线性RNN可以通过类似线性RNN的方式并行训练,有望提高计算效率。
摘要由CSDN通过智能技术生成

0cc6804a7c23bc245d3d581fff8765f9.gif

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 科学空间

研究方向 | NLP、神经网络

近年来,线性 RNN 由于其可并行训练以及常数推理成本等特性,吸引了一定研究人员的关注(例如笔者之前写的《Google新作试图“复活”RNN:RNN能否再次辉煌?》),这让 RNN 在 Transformer 遍地开花的潮流中仍有“一席之地”。然而,目前看来这“一席之地”只属于线性 RNN,因为非线性 RNN 无法高效地并行训练,所以在架构之争中是“心有余而力不足”。

不过,一篇名为《Parallelizing Non-Linear Sequential Models over the Sequence Length》的论文有不同的看法,它提出了一种迭代算法,宣传可以实现非线性 RNN 的并行训练!真有如此神奇?接下来我们一探究竟。

89fae4e72f1bd6b21b56bbce62e22d6a.png

论文标题:

Parallelizing Non-Linear Sequential Models over the Sequence Length

论文链接:

https://arxiv.org/pdf/2309.12252.pdf

8e6d184fecd3b857340e72aa4a79ab1b.png

求不动点

原论文对其方法做了非常一般的介绍,而且其侧重点是 PDE 和 ODE,这里我们直接从 RNN 入手。考虑常见的简单非线性 RNN:

16bed9fad20192cca67cb03c04237e89.png

由于 的存在,它只能串行计算。现在我们在两边都减去 :

12f9fe2bda9db98d8b38c00afffe9f5d.png

当然,这改变不了它是非线性 RNN 的实质。然而我们可以发现,假如右端的 换成像 那样的给定向量,那么这就是一个线性 RNN 了,根据《Google新作试图“复活”RNN:RNN能否再次辉煌?》的结果,它是可以并行计算的。此时,敏捷的读者可能已经猜到后面的步骤了——迭代求解!

首先ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值