# 技能 | 三次简化一张图: 一招理解LSTM/GRU门控机制

## 引言

RNN是深度学习中用于处理时序数据的关键技术， 目前已在自然语言处理， 语音识别， 视频识别等领域取得重要突破， 然而梯度消失现象制约着RNN的实际应用。LSTM和GRU是两种目前广为使用的RNN变体，它们通过门控机制很大程度上缓解了RNN的梯度消失问题，但是它们的内部结构看上去十分复杂，使得初学者很难理解其中的原理所在。本文介绍”三次简化一张图”的方法，对LSTM和GRU的内部结构进行分析。该方法非常通用，适用于所有门控机制的原理分析。

## 预备知识： RNN

RNN (recurrent neural networks， 注意不是recursiveneural networks)提供了一种处理时序数据的方案。和n-gram只能根据前n-1个词来预测当前词不同， RNN理论上可以根据之前所有的词预测当前词。在每个时刻， 隐层的输出ht依赖于当前词输入xt和前一时刻的隐层状态ht-1:

LSTM
LSTM通过设计精巧的网络结构来缓解梯度消失问题，其数学上的形式化表示如下:

## GRU

GRU是另一种十分主流的RNN衍生物。RNN和LSTM都是在设计网络结构用于缓解梯度消失问题， 只不过是网络结构有所不同。GRU在数学上的形式化表示如下:

## 小结

