LSTM解决梯度消失问题

为什么rnn循环神经网络会有梯度消失的情况,而lstm可以避免这种情况的发生?

  • 使用梯度下降的方式来更新,如果有很多个这样的数相乘的话,就会使得梯度趋近于0。

  • 梯度消失导致的问题其实是权重w几乎不更新,这样就很难找到一个合适的权重w,去映射输入值与输出值之间的关系。 - LSTM中神经元之间的连接不仅仅有h, 还有信息C, h在神经元之间的传递会经过sigmoid函数处理,但是C不会。所以与C相关的权重W的更新不会因为神经元链过长而产生梯度消失的现象(指的是,遗忘门,信息增益门的权重w)。但是输出门的权重w,是可能会出现梯度消失的。所以可以说是高速通道C,掩盖了通道h的梯度消失的现象,所以从整体上看是没有梯度消失现象的。在这里插入图片描述
    LSTM结构分析

  • LSTM的第一步是决定我们要从细胞状态C中丢弃什么信息。 在这里插入图片描述

  • 下一步是决定我们要在细胞状态中存储什么信息。在这里插入图片描述

  • 将上一个状态值乘以ft,以此表达期待忘记的部分。之后我们将得到的值加上 it∗C̃ t。这个得到的是新的候选值, 按照我们决定更新每个状态值的多少来衡量.
    在这里插入图片描述

  • 输出门
    在这里插入图片描述

交叉熵函数是什么?在什么地方用过?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值