为什么使用 LSTM 训练速度远大于 SimpleRNN？

最新推荐文章于 2023-12-31 01:32:59 发布

shuo_in_csdn

最新推荐文章于 2023-12-31 01:32:59 发布

阅读量1.1k

点赞数 2

文章标签：深度学习 tensorflow rnn lstm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shuo_in_csdn/article/details/118756665

版权

今天试验 TensorFlow 2.x ， Keras 的 SimpleRNN 和 LSTM，发现同样的输入、同样的超参数设置、同样的参数规模，LSTM 的训练时长竟然远少于 SimpleRNN。

模型定义：

训练参数都这样传入：

我们知道，LSTM 是修正了的 SimpleRNN（我随意想出来的词，“修正”），或者说，是在 SimpleRNN 基础之上又添加了别的措施使模型能考虑到超长序列的标记之间的依赖。缓解了梯度消失和梯度爆炸的问题。

所以，LSTM 比 SimpleRNN 是多了很多参数矩阵的，且每一步也多了一些计算。而训练过程既有前向，又有反向，不管哪个过程，理论上 LSTM都是比SimpleRNN要花更多时间的，那么为什么我在使用 TensorFlow with Keras 时会出现相反的情况呢？

训练情况（第一个 epoch）：

SimpleRNN 的

最低0.47元/天解锁文章

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
为什么使用 LSTM 训练速度远大于 SimpleRNN？

今天试验 TensorFlow 2.x ，Keras 的 SimpleRNN 和 LSTM，发现同样的输入、同样的超参数设置、同样的参数规模，LSTM 的训练时长竟然远少于 SimpleRNN。模型定义：训练参数都这样传入：我们知道，LSTM 是修正了的 SimpleRNN（我随意想出来的词，“修正”），或者说，是在 SimpleRNN 基础之上又添加了别的措施使模型能考虑到超长序列的标记之间的依赖。缓解...
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。