LSTM是RNN中最为常用的模型,其需要估计的参数量是普通RNN的4倍,LSTM拥有“四进一出”,四进中又包含了三个门,分别为遗忘门,输入门和输出门。其中,遗忘门用于决定上一层数据保留的比率,输入门决定当下数据保留的比例,输出门决定最后输出的比例。
想彻底牢记LSTM就记住这四进一出即可,下面介绍这四进一出
第一进:遗忘门
遗忘门用于决定上一层数据保留的比例,由于这个激活函数是sigmoid,所以输出结果位于0-1间,所以达到这个目的也比较容易。
第二进:输入门
输入门决定当下数据经过tanh变换后的保留比例。
第三进:未命名的“信息门”
这个门我个人比较喜欢称之为信息门,由于激活函数是tanh,其函数范围为(-1,1),当下输入数据经过输入门后与信息门相乘获得当下输入的保留结果,如果经信息门后的值为负,说明对以往记忆的影响是负向的,反之则为正向。
当我们确定这三进之后,就确定了对原始数据和当下数据的结合,并生成了最新的”记忆信息“,其表达式如下
但是,若想输出最终的结果,则需要将记忆信息再一次通过信息门,然后乘上输出门的比例获得最终结果:
其中第四进:输出门对应上文的