递归神经网络LSTM详解:为什么用sigmoid,tanh不用relu?

本文详细介绍了LSTM的工作原理,包括forget gate、input gate和output gate,强调了sigmoid和tanh在LSTM中的作用。与ReLU相比,sigmoid和tanh在LSTM中能更好地控制信息流,避免了ReLU可能导致的神经元死亡问题,从而有效地处理长时依赖问题。
摘要由CSDN通过智能技术生成

1. 递归神经网络

递归神经网络的结果与传统神经网络有一些不同,它带有一个指向自身的环,用来表示它可以传递当前时刻处理的信息给下一时刻使用。
可以认为它是对相同神经网络的多重复制,每一时刻的神经网络会传递信息给下一时刻。
在这里插入图片描述
递归神经网络因为具有一定的记忆功能,可以被用来解决很多问题,例如:语音识别、语言模型、机器翻译等。但是它并不能很好地处理长时依赖问题。

2.LSTM

长时依赖是这样的一个问题,当预测点与依赖的相关信息距离比较远的时候,就难以学到该相关信息。Long Short Term Mermory network(LSTM)是一种特殊的RNNs,可以很好地解决长时依赖问题。
所有的递归神经网络都是由重复神经网络模块构成的一条链,可以看到它的处理层非常简单,通常是一个单tanh层,通过当前输入及上一时刻的输出来得到当前输出。与神经网络相比,经过简单地改造,它已经可以利用上一时刻学习到的信息进行当前时刻的学习了。
在这里插入图片描述

LSTM的结构与上面相似,不同的是它的重复模块会比较复杂一点,它有四层结构:

  • 2
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值