神经网络与深度学习课程笔记--第七周

本文详细探讨了循环神经网络在自然语言处理中的应用,包括序列模型、数据预处理(如词嵌入)、RNN特别是LSTM和GRU的结构及其解决的问题。同时,介绍了生成对抗网络的基本原理和在生成样本中的作用。
摘要由CSDN通过智能技术生成

一.循环神经网络与NLP

1.序列模型

分类问题与预测问题:

图像分类:由当前输入得当前输出

时间序列预测:由当前与过去得输入预测当前输出

自回归模型:

2.数据预处理

特征编码

数值特征和类别特征。其中类别特征可以用独热(one-hot)向量来表示

文本处理

可以按字母处理或者按单词处理

3.文本预处理和词嵌入

文本预处理

  1. 将文本作为字符串加载到内存中;
  2. 将字符串切分为词元(如单词和字符);
  3. 建立一个字典,将拆分的词元映射到数字索引;
  4. 将文本转换为数字索引序列,方便模型操作。

词嵌入

4.RNN模型

概要:

在每个时间步上,RNN接受输入序列中的一个元素和上一个时间步的隐藏状态,并输出当前时间步的隐藏状态。

模型:

利用序列中的时间信息,并且可以通过保留隐藏状态来捕捉序列中的长期依赖关系。RNN模型由一个或多个循环单元组成,每个循环单元都有一个内部状态(隐藏状态),用于存储过去的信息,并在下一个时间步传递给自身。这种内部状态的反馈机制使得RNN能够处理任意长度的序列输入。

问题:随着输入的增加,会产生遗忘问题

5.RNN误差反传

问题:

梯度消失和梯度爆炸:在训练过程中,RNN很容易遇到梯度消失或梯度爆炸的问题。这是由于反向传播过程中梯度在多个时间步长内连续相乘或相加,导致梯度指数级增加或减小。

长期依赖建模困难:简单的RNN很难有效地捕捉长期依赖关系,因为随着时间的增长,信息需要通过多个时间步长传播,容易出现梯度消失或信息遗忘的问题。

内部状态限制:RNN的内部状态大小是固定的,这限制了其对长序列的处理能力。当序列很长时,RNN可能会丢失关键信息或受限于固定大小的内部状态。

并行计算效率低:由于RNN模型的时间步骤之间存在依赖关系,导致难以有效地并行化计算,限制了其在大规模数据上的训练速度。

为了解决这些问题,研究人员提出了许多改进的RNN变体,如门控循环单元(GRU)、长短期记忆网络(LSTM)等,以及其他结构如Transformer等。这些变体通过引入门控机制、跳跃连接等方式来改善长期依赖建模能力,解决梯度消失问题,并提高并行计算效率。

6.门控循环单元(GRU)

更新门(Update Gate): 决定了在当前时间步长,应该如何将过去的记忆信息与当前的输入进行结合。它控制了过去记忆信息的保留程度,以及新信息的重要程度。输出范围在0到1之间,表示需要保留的过去记忆信息的比例。
重置门(Reset Gate): 决定了在当前时间步长,应该如何考虑过去的记忆信息。它控制了过去记忆信息的遗忘程度,以及新信息的影响程度。输出范围在0到1之间,表示过去记忆信息的遗忘比例。
隐藏状态更新:基于更新门和重置门的输出,GRU根据当前输入和过去隐藏状态计算新的隐藏状态。更新门决定了过去记忆信息的保留程度,重置门决定了过去记忆信息的遗忘程度,二者结合起来影响了新的隐藏状态的生成。
门控机制:
GRU利用门控机制来调节信息的流动,从而解决了长期依赖问题和梯度消失问题。通过更新门和重置门,GRU可以在不同的时间步长上自适应地调整过去信息的保留和遗忘程度,从而更有效地捕捉序列中的长期依赖关系。

7.长短期记忆网络(LSTM)

LSTM的全称是Long Short Term Memory,它是具有记忆长短期信息的能力的神经网络,是一种改进之后的循环神经网络。提出的动机是为了解决普通RNN网络的长期依赖问题。原始 RNN 的隐藏层只有一个状态它对于短期的输入非常敏感。LSTM再增加一个状态,让它来保存长期的状态,称为单元状态(cell state)。

8.深度循环神经网络

是RNN的拓展形式,具有L个隐含层。与传统的RNN相比,DRNN在每个时间步上执行多次非线性转换,以便对更长的序列数据进行建模。

二.生成对抗网络(GAN)

生成对抗网络(GAN)的初始原理十分容易理解,即构造两个神经网络,一个生成器,一个鉴别器,二者互相竞争训练,最后达到一种平衡(纳什平衡)。 GAN 启发自博弈论中的二人零和博弈(two-player game),GAN 模型中的两位博弈方分别由生成式模型(generativemodel,G)和判别式模型( discriminative model,D)充当。

生成模型 G 捕捉样本数据的分布,用服从某一分布(均匀分布,高斯 分布等)的噪声 z 生成一个类似真实训练数据的样本,追求效果是越 像真实样本越好。

判别模型 D 是一个二分类器,估计一个样本来自于训练数据(而非生 成数据)的概率,如果样本来自于真实的训练数据,D 输出大概率, 否则,D 输出小概率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值