长短期记忆是复杂和先进的神经网络结构的重要组成部分。本文的主要思想是解释其背后的数学原理,所以阅读本文之前,建议首先对LSTM有一些了解。
介绍
上面是单个LSTM单元的图表。我知道它看起来可怕,但我们会通过一个接一个的文章,希望它会很清楚。
解释
基本上一个LSTM单元有4个不同的组件。忘记门、输入门、输出门和单元状态。我们将首先简要讨论这些部分的使用,然后深入讨论数学部分。
忘记门
顾名思义,这部分负责决定在最后一步中扔掉或保留哪些信息。这是由第一个s型层完成的。
根据ht-1(以前的隐藏状态)和xt(时间步长t的当前输入),它为单元格状态C_t-1中的每个值确定一个介于0到1之间的值。
遗忘门和上一个状态
如果为1,所有的信息保持原样,如果为0,所有的信息都被丢弃,对于其他的值,它决定有多少来自前一个状态的信息被带入下一个状态。
输入门
Christopher Olah博客的解释在输入门发生了什么:
下一步是决定在单元格状态中存储什么新信息。这包括两部分。首先,一个称为“输入门层”的sigmoid层决定我们将更新哪些值。接下来,一个tanh层创建一个新的候选值的向量,C~t,可以添加到状态中。在下一步中,我们将结合这两者来创建对状态的更新。
现在这两个值i。e i_t和c~t结合决