前文中小修为大家介绍了自然语言模型中LSTM (Long Short-Term Memory)网络的性质,相对于递归神经网络,LSTM网络能够避因为梯度弥散而带来的长时间的信息丢失的问题。这里小修为大家介绍一种在LSTM基础上提出的GRU网络模型。LSTM和GRU (Gated Recurrent Unit)是在处理自然语言中非常流行的两种网络模型,小修根据最近几年的关于这方面的研究介绍一下两种模型的优劣对比。在介绍之前,我们先回顾一下LSTM模型,之后再介绍GRU模型。
1. LSTM模型
LSTM模型又称为长短期记忆网络,其网络的结构如下图所示:
对于LSTM模型,有三个非常重要的门,分别时输入门,遗忘门以及输出门。其中输入门和遗忘门的表达式为:<