递归神经网络LSTM详解：为什么用sigmoid，tanh不用relu？

最新推荐文章于 2025-03-23 22:01:21 发布

nnnancyyy

最新推荐文章于 2025-03-23 22:01:21 发布

阅读量5.2k

点赞数 2

文章标签：神经网络 lstm 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42155006/article/details/119917022

版权

本文详细介绍了LSTM的工作原理，包括forget gate、input gate和output gate，强调了sigmoid和tanh在LSTM中的作用。与ReLU相比，sigmoid和tanh在LSTM中能更好地控制信息流，避免了ReLU可能导致的神经元死亡问题，从而有效地处理长时依赖问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 递归神经网络

递归神经网络的结果与传统神经网络有一些不同，它带有一个指向自身的环，用来表示它可以传递当前时刻处理的信息给下一时刻使用。
可以认为它是对相同神经网络的多重复制，每一时刻的神经网络会传递信息给下一时刻。
在这里插入图片描述
递归神经网络因为具有一定的记忆功能，可以被用来解决很多问题，例如：语音识别、语言模型、机器翻译等。但是它并不能很好地处理长时依赖问题。

2.LSTM

长时依赖是这样的一个问题，当预测点与依赖的相关信息距离比较远的时候，就难以学到该相关信息。Long Short Term Mermory network（LSTM）是一种特殊的RNNs，可以很好地解决长时依赖问题。
所有的递归神经网络都是由重复神经网络模块构成的一条链，可以看到它的处理层非常简单，通常是一个单tanh层，通过当前输入及上一时刻的输出来得到当前输出。与神经网络相比，经过简单地改造，它已经可以利用上一时刻学习到的信息进行当前时刻的学习了。
在这里插入图片描述

LSTM的结构与上面相似，不同的是它的重复模块会比较复杂一点，它有四层结构：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。