Gated Recurrent Unit (GRU) 是一种简化版的长短期记忆网络(LSTM),它在保持 LSTM 的优势的同时,减少了模型的复杂度。GRU 通过合并遗忘门和输入门,减少了参数数量,使得模型更容易训练且计算效率更高。
GRU 的基本概念
GRU 的核心思想是通过两个门控机制来控制信息的流动:重置门(Reset Gate)和更新门(Update Gate)。这两个门控机制分别控制着如何更新隐藏状态以及如何保留之前的隐藏状态。
重置门:重置门决定哪些信息需要从过去的隐藏状态中丢弃。
更新门:更新门决定多少过去的信息需要保留。
候选隐藏状态(Candidate Hidden State): 候选隐藏状态是LSTM在每个时间步中计算的一个中间状态,它代表了当前时间步可能对细胞状态(cell state)做出的更新。这个状态是基于当前输入和前一个时间步的隐藏状态计算得到的。
新的隐藏状态:新的隐藏状态是LSTM在每个时间步最终输出的状态,它代表了模型在当前时间步的“记忆”。这个状态是基于前一个时间步的细胞状态、前一个时间步的隐藏状态、当前时间步的输入,以及通过遗忘门、更新门和重置门控制的信息流动计算得到的。
长短期记忆网络(Long Short-Term Memory, LSTM)是一种特殊的递归神经网络(Recurrent Neural Network, RNN),设计用于解决传统 RNN 在处理长序列时的梯度消失和梯度爆炸问题。LSTM 通过引入门控机制来控制信息的流动,从而能够有效地捕捉长时间依赖关系。
LSTM 的基本概念
LSTM 的核心思想是通过三个门控机制来控制信息的流动:输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate)。这些门控机制允许 LSTM 有选择地保留或丢弃信息,从而更好地处理长序列数据。
LSTM 的工作原理
-
遗忘门:
- 遗忘门 ftft 决定哪些信息需要从细胞状态 ct−1ct−1 中丢弃。
- 如果 ftft 接近 0,那么细胞状态 ct−1ct−1 的对应部分会被丢弃;如果 ftft 接近 1,那么细胞状态 ct−1ct−1 的对应部分会被保留。
-
输入门:
- 输入门 itit 决定哪些新的信息需要添加到细胞状态 ct−1ct−1 中。
- 如果 itit 接近 1,那么新的信息会被添加到细胞状态 ct−1ct−1 中;如果 itit 接近 0,那么新的信息不会被添加。
-
候选细胞状态:
- 候选细胞状态 c~tc~t 是通过当前输入 xtxt 和前一个隐藏状态 ht−1ht−1 计算的。
- 候选细胞状态经过 tanhtanh 激活函数,其值域在 [−1,1][−1,1] 之间。
-
新的细胞状态:
- 新的细胞状态 ctct 是通过遗忘门和输入门对前一个细胞状态 ct−1ct−1 和候选细胞状态 c~tc~t 进行线性插值得到的。
- 公式 ct=ft⊙ct−1+it⊙c~tct=ft⊙ct−1+it⊙c~t 表示细胞状态的更新过程。
-
输出门:
- 输出门 otot 决定哪些信息需要从细胞状态 ctct 中输出。
- 如果 otot 接近 1,那么细胞状态 ctct 的对应部分会被输出;如果 otot 接近 0,那么细胞状态 ctct 的对应部分不会被输出。
-
新的隐藏状态:
- 新的隐藏状态 htht 是通过输出门和细胞状态 ctct 计算的。
- 公式 ht=ot⊙tanh(ct)ht=ot⊙tanh(ct) 表示隐藏状态的更新过程。
- 新的细胞状态是LSTM内部用来存储长期记忆的关键变量,它在整个序列中持续更新,并且直接影响到网络的长期记忆能力。
- 新的隐藏状态是LSTM在每个时间步对外输出的状态,它基于当前的细胞状态和前一个时间步的隐藏状态计算得到,用于传递信息到下一个时间步或作为最终输出。
简而言之,新的细胞状态是LSTM内部的记忆单元,而新的隐藏状态是LSTM对外的输出表示。两者共同协作,使得LSTM能够有效地处理序列数据,并捕捉长期依赖关系。
·