脑洞大开：非线性RNN居然也可以并行计算？

最新推荐文章于 2024-05-26 21:38:48 发布

PaperWeekly

最新推荐文章于 2024-05-26 21:38:48 发布

阅读量211

点赞数 1

文章标签： rnn 人工智能深度学习神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/133758782

版权

本文探讨了非线性RNN的并行计算问题，通过数学物理中的“摄动”思想，将其转化为线性RNN的迭代，以实现非线性RNN的并行计算。论文提出了迭代算法，即使得非线性RNN可以通过类似线性RNN的方式并行训练，有望提高计算效率。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 科学空间

研究方向 | NLP、神经网络

近年来，线性 RNN 由于其可并行训练以及常数推理成本等特性，吸引了一定研究人员的关注（例如笔者之前写的《Google新作试图“复活”RNN：RNN能否再次辉煌？》），这让 RNN 在 Transformer 遍地开花的潮流中仍有“一席之地”。然而，目前看来这“一席之地”只属于线性 RNN，因为非线性 RNN 无法高效地并行训练，所以在架构之争中是“心有余而力不足”。

不过，一篇名为《Parallelizing Non-Linear Sequential Models over the Sequence Length》的论文有不同的看法，它提出了一种迭代算法，宣传可以实现非线性 RNN 的并行训练！真有如此神奇？接下来我们一探究竟。

论文标题：

Parallelizing Non-Linear Sequential Models over the Sequence Length

论文链接：

https://arxiv.org/pdf/2309.12252.pdf

求不动点

原论文对其方法做了非常一般的介绍，而且其侧重点是 PDE 和 ODE，这里我们直接从 RNN 入手。考虑常见的简单非线性 RNN：

由于的存在，它只能串行计算。现在我们在两边都减去：

当然，这改变不了它是非线性 RNN 的实质。然而我们可以发现，假如右端的换成像那样的给定向量，那么这就是一个线性 RNN 了，根据《Google新作试图“复活”RNN：RNN能否再次辉煌？》的结果，它是可以并行计算的。此时，敏捷的读者可能已经猜到后面的步骤了——迭代求解！

首先ÿ

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。