LSTM原理及实现

最新推荐文章于 2024-07-28 23:38:39 发布

九分三十四

最新推荐文章于 2024-07-28 23:38:39 发布

阅读量177

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44995210/article/details/89854556

版权

这篇博客详细介绍了LSTM（长短期记忆网络）的工作原理，包括遗忘门、输入门、输出门的机制。内容涵盖LSTM如何解决长期依赖问题，以及多层LSTM的叠加效果。此外，还提供了LSTM实现手写数字识别的实践案例，包括参数设置、权值初始化和训练过程。

摘要由CSDN通过智能技术生成

title: LSTM原理及实现
date: 2018-02-10 10:49:21
tags:
categories: 深度学习

文章目录

这篇博客前面原理部分是colah博客的翻译，后面一部分为自己结合实际实际代码的理解。

LSTM网络

long short term memory，即我们所称呼的LSTM，是为了解决长期以来问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中，这个重复的结构模块只有一个非常简单的结构，例如一个tanh层。

如果你觉得这篇文章看起来稍微还有些吃力，或者想要更系统地学习人工智能，那么推荐你去看床长人工智能教程。非常棒的大神之作，我也被圈粉了。教程不仅通俗易懂，而且很风趣幽默。点击这里可以查看教程。

LSTM 同样是这样的结构，但是重复的模块拥有一个不同的结构。不同于单一神经网络层，这里是有四个，以一种非常特殊的方式进行交互。

不必担心这里的细节。我们会一步一步地剖析 LSTM 解析图。现在，我们先来熟悉一下图中使用的各种元素的图标。

在上面的图例中，每一条黑线传输着一整个向量，从一个节点的输出到其他节点的输入。粉色的圈代表 pointwise 的操作，诸如向量的和，而黄色的矩阵就是学习到的神经网络层。合在一起的线表示向量的连接，分开的线表示内容被复制，然后分发到不同的位置。

LSTM核心思想

LSTM的关键在于细胞的状态整个(绿色的图表示的是一个cell)，和穿过细胞的那条水平线。

细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易。

若只有上面的那条水平线是没办法实现添加或者删除信息的。而是通过一种叫做门（gates）的结构来实现的。

门可以实现选择性地让信息通过，主要是通过一个 sigmoid 的神经层和一个逐点相乘的操作来实现的。

sigmoid 层输出（是一个向量）的每个元素都是一个在 0 和 1 之间的实数，表示让对应信息通过的权重（或者占比）。比如， 0 表示“不让任何信息通过”， 1 表示“让所有信息通过”。

LSTM通过三个这样的本结构来实现信息的保护和控制。这三个门分别输入门、遗忘门和输出门。

逐步理解LSTM

现在我们就开始通过三个门逐步的了解LSTM的原理

遗忘门

在我们 LSTM 中的第一步是决定我们会从细胞状态中丢弃什么信息。这个决定通过一个称为忘记门层完成。该门会读取

最低0.47元/天解锁文章

九分三十四

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
LSTM原理及实现

LSTM原理及实现
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。