在ASR中近期用到了一种特殊的循环神经网络(RNN):长短期记忆网络(Long short-term memory,LSTM).RNN适用于处理序列数据和预测任务,在进行反向传播的时候,RNN有可能会出现梯度消失,而梯度在模型训练过程中是来更新神经网络权重值的,所以随着时间推移梯度在传播时会下降,如果梯度值变得非常小训练的模型就不会继续学习,会使得其无法记住在较长序列中学习到的内容,也就是说它的记忆是短期的。针对上述会受到的短期记忆的影响,提出了LSTM的解决方案,通过引入门结构来减弱短期记忆影响的演化变体,其中门结构可用来调节流经序列链的信息流。
这些门结构可以学习序列中哪些数据是要保留的重要信息,哪些是要删除的,它可以沿着长链序列传递相关信息来执行预测。通过一个示例可以更形象的解释一下LSTM,例如在网上购买物品时,会先看一下评论中对商品的评价,来判断是否去买这个商品。在此过程中大脑会下意识地记住一些重要的关键词,隔两天如果有人问你看到的评论内容,你可能不会一字不漏地记起来,而是想到了一些主要观点,而那些次要内容会自然的从记忆中逐渐消失,对于你记住的这些词可以用来判定这个物品的好坏,这基本上就是LSTM的作用了,