【22-23 春学期】AI作业12-LSTM

1.长短期记忆网络 LSTM(输入门、遗忘门、输出门)

长短期记忆网络(LSTM)是一种递归神经网络,用于解决序列建模问题。它包括一个重复模块,其中有三个门:输入门、遗忘门和输出门。

输入门的作用是决定是否将新信息传递到长期记忆单元中,其计算方式是通过输入层的当前输入和上一个时刻输出的状态向量以及门控权重向量来获得一个介于 0 和 1 的值,表示新信息的重要性。

遗忘门的作用是帮助判断哪些旧的信息应该被保留,哪些应该被遗忘。遗忘门也是通过门控权重向量来获得的,其值介于 0 和 1 之间,用于控制长期记忆单元中旧信息的保留程度。

输出门的作用是决定要从长期记忆单元中输出什么信息。输出门同样是通过门控权重向量计算得到的,其值介于 0 和 1 之间,用于控制长期记忆单元中信息的输出。

这种门控结构允许 LSTM 有效地控制信息的流动,确保关键信息不会被遗忘或淹没在噪声中。这使得 LSTM 在处理各种序列任务,如语音识别、自然语言处理和时间序列预测等领域展现出了强大的能力。

2.LSTM如何克服梯度消失

LSTM 克服了传统的 RNN 在长距离依赖建模时遇到的梯度消失问题。这是因为 LSTM 中的门控机制导致模型训练时的梯度流更为平稳。

在传统的 RNN 中,由于多个时间步的激活函数存在连乘的情况,当输入和权重的值很小或者发生反向传播时,会导致梯度逐渐趋近于 0,从而使得模型长期无法记住长期依赖的信息。LSTM 对此提出了一种门控结构,使得模型能够选择性地添加或删除信息,从而更有效地控制梯度流。

具体来说,LSTM 通过三个门控来控制长期依赖信息的流动:输入门(input gate)、遗忘门(forget gate)和输出门(output gate)。这些门控能够对信息的重要性进行动态调整,使得模型能够根据当前输入和之前的状态,有选择地丢弃或保留信息,从而更好地处理长期依赖性序列模型。

因此,在训练 LSTM 模型时,梯度流更平稳,避免了传统 RNN 模型中遇到的梯度消失问题,使得 LSTM 在具有长期依赖性的任务上表现良好。

  

3.门控循环单元神经网络 GRU(更新门、重置门)

门控循环单元神经网络(GRU)是一种近似于 LSTM 的递归神经网络结构,可用于解决序列建模问题。与 LSTM 不同,GRU 仅使用两个门:更新门和重置门。

更新门控制前后两个时间步之间的信息流,采用一个介于 0 和 1 之间的权重向量,用于控制当前状态向量和新输入的相对重要性。如果更新门接近 1,则新输入较重要;如果接近 0,则之前的状态较重要。

重置门用于决定多少之前的状态信息被保留,并作为新的候选状态。通过介于 0 和 1 之间的另一个权重向量控制。

与 LSTM 类似,GRU 也采用门控机制来帮助避免长期依赖问题和梯度消失问题。由于只有两个门,相对于 LSTM 更容易实现和更快速训练,因此在一些场景下它的性能也优于 LSTM。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值