长短期记忆网络LSTM

最新推荐文章于 2024-06-26 19:01:12 发布

Ftwhale

最新推荐文章于 2024-06-26 19:01:12 发布

阅读量717

点赞数

分类专栏：深度学习文章标签：人工智能神经网络深度学习

本文链接：https://blog.csdn.net/Ftwhale/article/details/105650925

版权

深度学习专栏收录该内容

56 篇文章 5 订阅

订阅专栏

上两小节我们主要讲述了循环神经网络RNN，但是尽管 RNN 被设计成可以利用历史的信息来预测当前的决策，例如使用之前出现的单词来加强对当前单词的理解，但是预测RNN决策的主要还是最后输入的一些信号，更早之前的信号会随着时间的推迟而变得强度越来越低，它对后续的影响越来越弱。这样就会给RNN带来了新的技术挑战一一长期依赖（Long-Term Dependencies) 问题。

当遇到一些上下文信息场景更加复杂的情况时，比如当模型试着去预测“Here for several days of rain, so the air is very fresh”中最后一个单词“fresh”时，我们可以凭直观感觉填写出“fresh＂或“good”等，但 RNN 模型仅仅根据短期依赖就无法很好地解决这种问题。因为根据“very”，模型判断出最后一个单词是形容词，根据“air”，模型判断出这个形容词要去形容“air”，但如果模型需要预测清楚具体用什么形容词去形容 “air”，就需要考虑先前提到的但离当前位置较远的上下文信息，在这句话中就是上半句中的“rain”以及修饰“rain”的相关单词。

随着长短期记忆网络（ LongSort Term Memory, LSTM）的发明，长期依赖的问题得到解决，也是循环神经网络中的一种。

LSTM的简介

LSTM 的主要思想是：门控单元以及线性连接的引入

1）门控单元：有选择性的保存和输出历史信息

2）线性连接：如下图中的水平线可以看作是 LSTM 的“主干道”，通过加法，Ct−1可以无障碍的在这条主干道上传递，因此 LSTM可以更好地捕捉时序数据中间隔较大的依赖关系。
在这里插入图片描述