这就是LSTM或GRU的作用。它可以学习只保留相关信息来进行预测,忘记不相关的数据。在这种情况下,你记得的单词让你判断麦片是好的。
RNN的回顾
为了理解LSTM或GRU如何实现这一点,让我们回顾一下RNN。RNN的工作原理是:第一个词被转换成机器可读的向量。然后RNN逐个处理向量序列。
逐个处理序列
处理时,它将先前的隐藏状态传递给序列的下一步。隐藏状态充当神经网络的记忆。它保存着网络以前见过的数据信息。
将隐藏状态传递给下一个时间步
让我们观察RNN的一个单元格,看看如何计算隐藏状态。首先,将输入和先前隐藏状态组合成一个向量。这个向量现在含有当前输入和先前输入的信息。向量经过tanh激活,输出新的隐藏状态,或网络的记忆。
RNN细胞
TANH激活
tanh激活用于帮助调节流经网络的值。tanh函数将值压缩在-1和1之间。
Tanh将值压缩到-1和1之间
当向量流经神经网络时,由于各种数学运算,它经历了许多变换。假设一个值连续乘以3。你可以看到某些值如何爆炸增长的,导致其他值看起来微不足道。