大模型|基础——长短时记忆网络

LSTM

遗忘门


遗忘门,是否进行遗忘。
如果通过计算,计算出来的结果为0,就选择遗弃。
如果遗忘,相当于对过去信息直接进行丢弃。
其中 σ ( ) \sigma() σ()代表激活函数,会将输出归于0到1之间的值。

输入门

在这里插入图片描述

整合信息

在这里插入图片描述
如果 f t = 0 f_t=0 ft=0相当于屏蔽了 C t − 1 C_{t-1} Ct1

在这里插入图片描述
h t − 1 h_{t-1} ht1这个参数是来自上一层的,也就是对应地,也要给下一层通过计算提供出 h t h_t ht

特点

在这里插入图片描述

实现神经单元的内部计算

门控控制——可以动态选择信息

如果信息不重要,可以通过遗忘门进行遗忘

在大数据量的情况下,可有效缓解梯度

注意点

LSTM并不适合用利用并行化进行计算上的优化。
在这里插入图片描述
由于 h i h_i hi的存在,他需要等待前面 h i − 1 h_{i-1} hi1 x i x_i xi得出后才能进一步计算。

  • 9
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值