本文是2017年发表在 IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS上的一篇文章,文章通过大量的对比实验,揭示LSTM及其变种中各种结构单元对LSTM网络性能的影响,此处避免照原文翻译。文章通过改变LSTM输入门、输出门、遗忘门等网络单元,改变学习率、网络大小、高斯噪声、动量等超参数,以及组合改变来进行了多组实验,结论如下:
1、没有任何变体可以显著地改进标准LSTM体系结构,但遗忘门和输出激活函数是其中最关键的组件。删除它们中的任何一个都会严重影响性能。输出激活函数可以防止无界的Cell State。GRU由于输入和忘记门的耦合,它的单元状态是有界的,在没有输出激活的情况下也可以很好地执行。
2、各种超参数对网络性能的影响通常与具体的数据集有关。各种超参数的重要性从高到底排列:学习率、 网络规模、动量、噪声。