神经网络与深度学习课程笔记--第七周_深度学习与神经网络笔记-CSDN博客

本文链接：https://blog.csdn.net/Zhttty02/article/details/138472215

本文详细探讨了循环神经网络在自然语言处理中的应用，包括序列模型、数据预处理（如词嵌入）、RNN特别是LSTM和GRU的结构及其解决的问题。同时，介绍了生成对抗网络的基本原理和在生成样本中的作用。

摘要由CSDN通过智能技术生成

一.循环神经网络与NLP

1.序列模型

分类问题与预测问题：

图像分类：由当前输入得当前输出

时间序列预测：由当前与过去得输入预测当前输出

自回归模型：

2.数据预处理

特征编码

数值特征和类别特征。其中类别特征可以用独热（one-hot）向量来表示

文本处理

可以按字母处理或者按单词处理

3.文本预处理和词嵌入

文本预处理

将文本作为字符串加载到内存中；
将字符串切分为词元（如单词和字符）；
建立一个字典，将拆分的词元映射到数字索引；
将文本转换为数字索引序列，方便模型操作。

词嵌入

4.RNN模型

概要：

在每个时间步上，RNN接受输入序列中的一个元素和上一个时间步的隐藏状态，并输出当前时间步的隐藏状态。

模型：

利用序列中的时间信息，并且可以通过保留隐藏状态来捕捉序列中的长期依赖关系。RNN模型由一个或多个循环单元组成，每个循环单元都有一个内部状态（隐藏状态），用于存储过去的信息，并在下一个时间步传递给自身。这种内部状态的反馈机制使得RNN能够处理任意长度的序列输入。

问题：随着输入的增加，会产生遗忘问题

5.RNN误差反传

问题：

梯度消失和梯度爆炸：在训练过程中，RNN很容易遇到梯度消失或梯度爆炸的问题。这是由于反向传播过程中梯度在多个时间步长内连续相乘或相加，导致梯度指数级增加或减小。

长期依赖建模困难：简单的RNN很难有效地捕捉长期依赖关系，因为随着时间的增长，信息需要通过多个时间步长传播，容易出现梯度消失或信息遗忘的问题。

内部状态限制：RNN的内部状态大小是固定的，这限制了其对长序列的处理能力。当序列很长时，RNN可能会丢失关键信息或受限于固定大小的内部状态。

并行计算效率低：由于RNN模型的时间步骤之间存在依赖关系，导致难以有效地并行化计算，限制了其在大规模数据上的训练速度。

为了解决这些问题，研究人员提出了许多改进的RNN变体，如门控循环单元（GRU）、长短期记忆网络（LSTM）等，以及其他结构如Transformer等。这些变体通过引入门控机制、跳跃连接等方式来改善长期依赖建模能力，解决梯度消失问题，并提高并行计算效率。

6.门控循环单元（GRU）

更新门（Update Gate）: 决定了在当前时间步长，应该如何将过去的记忆信息与当前的输入进行结合。它控制了过去记忆信息的保留程度，以及新信息的重要程度。输出范围在0到1之间，表示需要保留的过去记忆信息的比例。
重置门（Reset Gate）: 决定了在当前时间步长，应该如何考虑过去的记忆信息。它控制了过去记忆信息的遗忘程度，以及新信息的影响程度。输出范围在0到1之间，表示过去记忆信息的遗忘比例。
隐藏状态更新：基于更新门和重置门的输出，GRU根据当前输入和过去隐藏状态计算新的隐藏状态。更新门决定了过去记忆信息的保留程度，重置门决定了过去记忆信息的遗忘程度，二者结合起来影响了新的隐藏状态的生成。
门控机制：GRU利用门控机制来调节信息的流动，从而解决了长期依赖问题和梯度消失问题。通过更新门和重置门，GRU可以在不同的时间步长上自适应地调整过去信息的保留和遗忘程度，从而更有效地捕捉序列中的长期依赖关系。

7.长短期记忆网络（LSTM）

LSTM的全称是Long Short Term Memory，它是具有记忆长短期信息的能力的神经网络,是一种改进之后的循环神经网络。提出的动机是为了解决普通RNN网络的长期依赖问题。原始 RNN 的隐藏层只有一个状态它对于短期的输入非常敏感。LSTM再增加一个状态，让它来保存长期的状态，称为单元状态(cell state)。

8.深度循环神经网络

是RNN的拓展形式，具有L个隐含层。与传统的RNN相比，DRNN在每个时间步上执行多次非线性转换，以便对更长的序列数据进行建模。

二.生成对抗网络（GAN）

生成对抗网络(GAN)的初始原理十分容易理解，即构造两个神经网络，一个生成器，一个鉴别器，二者互相竞争训练，最后达到一种平衡(纳什平衡)。 GAN 启发自博弈论中的二人零和博弈（two-player game），GAN 模型中的两位博弈方分别由生成式模型（generativemodel，G）和判别式模型（ discriminative model，D）充当。

生成模型 G 捕捉样本数据的分布，用服从某一分布（均匀分布，高斯分布等）的噪声 z 生成一个类似真实训练数据的样本，追求效果是越像真实样本越好。

判别模型 D 是一个二分类器，估计一个样本来自于训练数据（而非生成数据）的概率，如果样本来自于真实的训练数据，D 输出大概率，否则，D 输出小概率。