李宏毅机器学习笔记-12.1 循环神经网络（Recurrent Neural Network-RNN）- part 1

最新推荐文章于 2024-02-19 23:45:40 发布

MemoryD

最新推荐文章于 2024-02-19 23:45:40 发布

阅读量1k

点赞数 2

分类专栏：机器学习文章标签：机器学习深度学习神经网络 RNN LSTM

本文链接：https://blog.csdn.net/MemoryD/article/details/80348637

版权

10 篇文章 0 订阅

订阅专栏

Recurrent Neural Network(RNN) - 循环神经网络（part 1)

假设要做一个智能客服系统或者智能订票系统之类的，需要用到一个叫做 Slot Filling 的技术，举个例子，如果做一个人对智能订票系统说 ”I would like to arrive Taipei on November 2nd“。那么你的系统会有一些 Slot，在这里应该是 Destination 和 time of arrival ，然后根据对方的话讲一些词填入到这些 Slot 中。具体如下图：
那应该要怎么实现以上的 Slot Filling 呢？可以考虑用之前学过的 前馈神经网络（Feedforward Neural NetWork），将输入的单词转换成向量的形式输入神经网络进行学习。将单词转换成向量的方法有很多，这里就不详细说明。
那以上的方法真的可行吗？ 想一下输入的两个句子是
1. arrive Taipei on November 2nd.
2. leave Taipei on November 2nd.
第一句中的 Taipei 表示的是目的地，而第二句中的表示的是出发地，但是我们的前馈神经网络是无法分辨这种情况的，因为前馈神经网络并不知道在 Taipei 之前是什么单词。也就是说，因为前馈神经网络没有记忆性。

RNN 具有记忆性，而这是通过设置一些内存单元实现的，如在下图中，a1 和 a2 就表示内存，其中存的值就是 hidden layer 的输出。并且，a1 和 a2 同样会被当成输入。
假设所有的 weight 都是 1，bias 都是 0，a1 和 a2 的初始值是 0， $\sigma(z) = z$ ,
1. 第一次的输入为 [1, 1] ，那 hidden layer 的输出就是 [2, 2]，同时 a1 和 a2 也会被更新为 [2, 2]，output = [4, 4].
2. 第二次的输入为 [1, 1] ,那 hidden layer 的输出就是 [6, 6]，同时 a1 和 a2 也会被更新为 [6, 6]，output = [12, 12].
3. 第三次的输入为 [2, 2] ,那 hidden layer 的输出就是 [16, 16]，同时 a1 和 a2 也会被更新为 [16, 16]，output = [32, 32].
如上，前两次输入是一样的，但是因为有“记忆性”，所以两次的输出不一样。并且我们注意到，现在这个 RNN 对顺序是敏感的，也就是说，如果我们把第三次输入换到第一次，那么整个输出的结果都会改变。
以上介绍的叫做 Elman Network，RNN 还有很多其他的变体，比如 Jordan Network，还有双向的RNN，即 Bidirectional RNN 。
以上的这些都是一些 RNN 的 simple 版本，接下来的才是主菜，才是我们目前真正实用的 RNN。

LSTM 的构成如下图：
1. Input Gate： 只有打开时，输入才能进入到内存单元（Memory Cell）.
2. Output Gate： 只有打开时，才能输出。
3. Forget Gate： 打开时，内存将被清空。（这里一般控制信号为0才叫做打开）。
由上图可以知道，LSTM 有 4 个输入：
- 输入到 input gate 中的值；
- 控制 input gate 的值；
- 控制 output gate 的值；
- 控制 forget gate 的值。
一个输出：
- 从 outpu gate 中输出的值。
为什么叫 Long Short-term Memory？因为之前介绍的 RNN 中，每次有新的值进来，内存中的值就会被替换掉，所以记忆是“short-term“。但是 LSTM 加了好几个控制阀门，内存并不会每次都被替换，所以有更 ”long“ 的记忆。、

LSTM 的 4 个输入，其实输入都是一样的，但是我们可以通过调整每个输入的权值来使他们表现得不一样。比如说我们输入 [x1, x2, x3] ，要做到
下图是一个例子，可以用来实现上图中的功能。当然在实际应用中，这些 weight 都是机器自己学习出来的。

我们之前讲的虽然看起来很复杂，但是对应到我们之前的的神经网络的架构，我们会发现，上面这个看起来很复杂的东西其实只是一个神经元（Neural），所以要把 LSTM 真正应用起来，就是拿上面讲的这个去替换 Neural Network 中的 Neural ，如果有两个 neural 那么就是这样子：
其实上面也是一个简化版，真正的 LSTM 长得像下面这样子：

这玩意儿正常人应该看不懂………但是多看看说不定可以，图上具体的各个含义我也不解释了，可以去听听李宏毅老师的课。

也没有什么好总结的，我写这些博客的目的主要是为了自己能够理解得更深，能够梳理清楚整个知识框架，所以可能对旁人看起来不太友好，但是如果有人看了我的博客能够从中受益，那我就非常开心了:smile:。

关注