LSTM结构

最新推荐文章于 2023-10-23 19:55:47 发布

Houser_qihao

最新推荐文章于 2023-10-23 19:55:47 发布

阅读量4.4k

点赞数 1

分类专栏：循环神经网络文章标签： LSTM rnn

本文链接：https://blog.csdn.net/weixin_42792500/article/details/81254209

版权

循环神经网络专栏收录该内容

5 篇文章 1 订阅

订阅专栏

LSTM结构

上节介绍的RNN模型，存在“长期依赖”的问题。模型在预测“大海的颜色是”下一个单词时，很容易判断为“蓝色”，因为这里相关信息与待预测词的位置相差不大，模型不需要记忆这个短句子之前更长的上下文信息。但当模型预测“十年前，北京的天空很蓝，但随着大量工厂的开设，废气排放监控不力，空气污染开始变得越来越严重，渐渐地，这里的天空变成了”下一个单词时，依靠“短期依赖”就不能很好的解决这类问题，因为仅仅根据“这里的天空变成了”这一小段，后一个单词可以是“蓝色”，也可以是“灰色”。上节描述的简单RNN结构可能无法学习到这种“长期依赖”的信息，LSTM可以很好的解决这类问题。图3展示了LSTM单元结构图。

与简单RNN结构中单一tanh循环体不同的是，LSTM使用三个“门”结构来控制不同时刻的状态和输出。所谓的“门”结构就是使用了sigmoid激活函数的全连接神经网络和一个按位做乘法的操作，sigmoid激活函数会输出一个0~1之间的数值，这个数值描述的是当前有多少信息能通过“门”，0表示任何信息都无法通过，1表示全部信息都可以通过。其中，“遗忘门”和“输入门”是LSTM单元结构的核心。下面我们来详细分析下三种“门”结构。

遗忘门，用来让RNN“忘记”之前没有用的信息。比如“十年前，北京的天空是蓝色的”，但当看到“空气污染开始变得越来越严重”后，RNN应该忘记“北京的天空是蓝色的”这个信息。遗忘门会根据当前时刻节点的输入Xt、上一时刻节点的状态C(t-1)和上一时刻节点的输出h(t-1)来决定哪些信息将被遗忘。

输入门，用来让RNN决定当前输入数据中哪些信息将被留下来。在RNN使用遗忘门“忘记”部分之前的信息后，还需要从当前的输入补充最新的记忆。输入门会根据当前时刻节点的输入Xt、上一时刻节点的状态C(t-1)和上一时刻节点的输出h(t-1)来决定哪些信息将进入当前时刻节点的状态Ct，比如看到“空气污染开始变得越来越严重”后，模型需要记忆这个最新的信息。

输出门，LSTM在得到最新节点状态Ct后，结合上一时刻节点的输出h(t-1)和当前时刻节点的输入Xt来决定当前时刻节点的输出。比如当前时刻节点状态为被污染，那么“天空的颜色”后面的单词应该是“灰色”。

在TensorFlow中可以使用lstm = rnn_cell.BasicLSTMCell(lstm_hidden_size)来声明一个LSTM结构

Houser_qihao

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
LSTM结构

LSTM结构上节介绍的RNN模型，存在“长期依赖”的问题。模型在预测“大海的颜色是”下一个单词时，很容易判断为“蓝色”，因为这里相关信息与待预测词的位置相差不大，模型不需要记忆这个短句子之前更长的上下文信息。但当模型预测“十年前，北京的天空很蓝，但随着大量工厂的开设，废气排放监控不力，空气污染开始变得越来越严重，渐渐地，这里的天空变成了”下一个单词时，依靠“短期依赖”就不能很好的解决这类问题，...
复制链接

扫一扫

专栏目录