【DL】1 RNN入门——李宏毅机器学习课程RNN笔记

最新推荐文章于 2023-11-26 11:14:45 发布

Yang SiCheng

最新推荐文章于 2023-11-26 11:14:45 发布

阅读量686

点赞数 3

分类专栏：【课程学习】文章标签：神经网络机器学习循环神经网络 lstm 人工智能

本文链接：https://blog.csdn.net/qq_41897800/article/details/114363683

版权

【课程学习】专栏收录该内容

11 篇文章 8 订阅

订阅专栏

Recurrent Neural Network

1. 应用实例（为什么需要RNN？）
2. RNN基本概念
3. Long Short-term Memory (LSTM)
4. RNN使用
- 4.1 Loss function
- 4.2 训练方法
5. RNN的应用前景
小结

1. 应用实例（为什么需要RNN？）

槽位填充
在这里插入图片描述
通过Feedforward网络解决槽位填充问题？

输入：一个单词(每一个词都用一个向量表示)
在这里插入图片描述

输出：属于槽的输入字的概率分布情况

注：如何将每个单词表示为一个向量？

1-of-N encoding
矢量是词库大小，每一个维度都对应着词典中的一个词，该词的维度为1，其他维度为0。
Beyond 1-of-N encoding
Dimension for “Other”

Word hashing

前向网络问题：

arrive Taipei on November 2nd
leave Taipei on November 2nd

希望神经网络在输入Taipei 的时候记住前一个词’leave’或者’arrive’，这就是RNN

2. RNN基本概念

隐藏层的输出存储在存储器中，记忆可以被认为是另一种输入
在这里插入图片描述
假设所有的权重都是 “1”，没有bias，所有激活函数都是线性的，结果如下图所示：

在这里插入图片描述
改变序列顺序将改变输出！

对于以上填充槽问题，同样的网络一用再用：

在这里插入图片描述

当然，它可以深…

在这里插入图片描述
艾尔曼(Elman)网络和约旦(Jordan)网络(有更好的表现)

在这里插入图片描述
双向(Bidirectional)RNN

3. Long Short-term Memory (LSTM)

在这里插入图片描述
仔细来看，LSTM形式如下：

在这里插入图片描述
激活函数f通常是一个sigmoid函数，在0和1之间，模仿开关门(注：forget gate打开是记得，关上是遗忘)

有一个LSTM的例子，如下：

在这里插入图片描述

当x2=1时，将x1的数字加到存储器中
当x2=-1时，重置内存
当x3=1时，输出存储器中的数字

更具体的例子在李宏毅2020机器学习的28：16，如下：

在这里插入图片描述

LSTM和以前学的神经网络有什么关系呢？

原网络：
在这里插入图片描述
只需将神经元替换为LSTM即可：

在这里插入图片描述
LSTM和RNN关系是什么呢？

把一排LSTM接起来，组成vector：
在这里插入图片描述

多层LSTM，这是相当标准的了：

不要担心，如果你不能理解这一点，Keras可以处理。Keras支持"LSTM"、“GRU”(LSTM的简化版本)、"SimpleRNN "Layers

4. RNN使用

4.1 Loss function

在这里插入图片描述

4.2 训练方法

时间回溯传播（BPTT）
在这里插入图片描述
不幸的是（问题）：基于RNN的网络并不总是容易学习的

误差面(error surface)很粗糙，误差面要么很平，要么很陡

在这里插入图片描述
为什么RNN会有这种奇怪的特性？

并不是因为使用sigmoid function导致梯度消失导致误差变化很小，下面举例说明为什么

在这里插入图片描述
假设：

w = 1， $y^{1000} = 1$
w = 1.01， $y^{1000} = 20000$ → large $\partial L / \partial w$ → 调小学习率
w = 0.99， $y^{1000} = 0$
w = 0.01， $y^{1000} = 0$ → small $\partial L / \partial w$ → 调大学习率

怎么解决？

Long Short-term Memory (LSTM)可以处理梯度消失(不是梯度爆炸)，为什么能解决？（门控循环单元（Gated Recurrent Unit, GRU）：比LSTM简单）
- 内存和输入是增加的
- 影响力永远不会消失，除非忘记门被关闭（无梯度消失(如果忘记门被打开)）
Clockwise RNN
Structurally Constrained Recurrent Network (SCRN)
Vanilla RNN初始化，Identity matrix + ReLU激活函数

5. RNN的应用前景

之前，输入和输出都是相同长度的序列，RNN可以做得更多!

多对一
输入是一个向量序列，但输出只有一个向量
多对多
输入和输出都是序列，但输出较短，例如：语音识别

解决办法：Connectionist Temporal Classification (CTC) ，增加一个代表 "空 "的符号 “φ”。

CTC训练，穷举所有的结果：
多对多（无限制）
输入和输出都是长度不同的序列→ 序列到序列的学习，如：机器翻译（machine learning→机器学习）

所以需要增加一个符号"==="（断）

在这里插入图片描述

超越序列
句法解析
序列到序列
自动编码器 - 文本
要理解词序的含义，不能忽视词的顺序，例如一字不差却含义不同的例子：
- white blood cells destroying an infection(positive)
- an infection destroying white blood cells(negative)

在这里插入图片描述

自动编码器 - 语音
变长序列的尺寸缩小
音段 (词水平)到固定长度向量

音频档案分为不同长度的音频段

RNN编码器和解码器联合训练

在这里插入图片描述
词的嵌入向量可视化

在这里插入图片描述
基于注意力的模式

在这里插入图片描述

基于注意力的模式v2(神经图灵机)

在这里插入图片描述
主要用在阅读理解中

在这里插入图片描述
视觉答题

语音答题

RNN v.s. Structured Learning

在这里插入图片描述

小结

第二次看李宏毅老师机器学习课程RNN的课程，主要对RNN的基本概念和LSTM有一个大体的回顾，以及RNN的应用方向，接下来在pytorch编程实现LSTM网络

Yang SiCheng

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
4
评论
【DL】1 RNN入门——李宏毅机器学习课程RNN笔记

Recurrent Neural Network1. 应用实例2. RNN基本概念1. 应用实例槽位填充通过Feedforward网络解决槽位填充问题？输入：一个单词(每一个词都用一个向量表示)输出：属于槽的输入字的概率分布情况注：如何将每个单词表示为一个向量？1-of-N encoding矢量是词库大小，每一个维度都对应着词典中的一个词，该词的维度为1，其他维度为0。Beyond 1-of-N encodingDimension for “Other”Word hashing
复制链接

扫一扫