废话不多说,直接上重点
LSTM模型是由时刻的输入词
,细胞状态
,临时细胞状态
,隐层状态
,遗忘门
,记忆门
,输出门
组成。LSTM的计算过程可以概括为,通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态
,其中遗忘,记忆与输出由通过上个时刻的隐层状态
和当前输入
计算出来的遗忘门
,记忆门
,输出门
来控制。
总体框架如图1所示。
图1. LSTM总体框架
计算遗忘门,选择要遗忘的信息。
输入:前一时刻的隐层状态
,当前时刻的输入词
输出:遗忘门的值
图2. 计算遗忘门
计算记忆门,选择要记忆的信息。
输入:前一时刻的隐层状态
,当前时刻的输入词
输出:记忆门的值
,临时细胞状态
图3. 计算记忆门和临时细胞状态
计算当前时刻细胞状态
输入:记忆门的值
,遗忘门的值
,临时细胞状态
,上一刻细胞状态
输出:当前时刻细胞状态
图4. 计算当前时刻细胞状态
计算输出门和当前时刻隐层状态
输入:前一时刻的隐层状态
,当前时刻的输入词
,当前时刻细胞状态
输出:输出门的值
,隐层状态
图5. 计算输出门和当前时刻隐层状态
最终,我们可以得到与句子长度相同的隐层状态序列{,
, ...,
}。