【深度学习与神经网络】循环神经网络与NLP

背景知识

序列模型

分类问题:当前输入 -> 当前输出

预测问题:当前 + 过去输入 -> 当前输出

数据预处理

数值特征/类别特征:特征编码

文本处理:按字母/单词处理

文本预处理步骤:

        1. 读取数据集

        2. 词汇切分

        3. 构建词索引表

文本嵌入:映射参数矩阵

RNN模型

序列数据建模

图像:1对1模型,输入输出维度固定

文本:输入维度不定,输出维度不定或1

RNN模型对序列数据建模(以文本为例)

        输入x并拆分,输出h,映射参数矩阵为A

RNN误差反传

每个时间步的隐状态和输出可以写为:

h_t = f\left ( x_t, h_{t-1}, w_h \right )

o_t = g\left ( h_t, w_o \right )

 h_t既依赖于h_{t-1}又依赖于w_h,其中h_{t-1}的计算也依赖于w_h。因此,用链式法则就会产生:

\frac{\partial h_t}{\partial w_h} = \frac{\partial f\left ( x_t, h_{t-1}, w_h \right )}{\partial w_h} + \frac{\partial f\left ( x_t, h_{t-1}, w_h \right )}{\partial h_{t-1}}\frac{\partial h_{t-1}}{\partial w_h}

进一步可写为:

\frac{\partial h_t}{\partial w_h} = \frac{\partial f\left ( x_t, h_{t-1}, w_h \right )}{\partial w_h} + \sum_{i=1}^{t-1}\left ( \prod_{j=i+1}^{t}\frac{\partial f\left ( x_j,h_{j-1},w_h \right )}{\partial h_{j-1}} \right )\frac{\partial f\left ( x_i,h_{i-1},w_h \right )}{\partial w_h}

阶段时间步:在\tau步后阶段上述公式中的求和计算 

门控循环单元(GRU)

基本思想

                不是每个观察都同等重要

                关注机制:更新门

                遗忘机制:重置门

GRU基本结构

R_t = \sigma \left ( X_tW_{xr}+H_{t-1}W_{hr}+b_r \right )

Z_t = \sigma \left ( X_tW_{xz}+H_{t-1}W_{hz}+b_z \right )

 候选隐状态

\tilde{H}_t = tanh\left ( X_tW_{xh}+\left ( R_t\bigodot H_{t-1} \right)W_{hh}+b_h \right )

隐状态

H_t = Z_t\bigodot H_{t-1}+\left ( 1-Z_t \right )\bigodot \tilde{H}_t

长短期记忆网络(LSTM)

LSTM网络模型

遗忘门

×代表逐元素相乘(点积)

输入门

i_t确定传送带\tilde{C_t}的哪些值被更新,新值 \tilde{C_t}加到C_{t-1}

传送带更新

输出门

LSTM与RNN

LSTM参数量是RNN的四倍

LSTM输入输出与RNN相同

深度循环神经网络

具有L个隐藏层的深度循环神经网络,每个隐状态都连续地传递到当前层的下一个时间步和下一层的当前时间步。

生成对抗网络(GAN)

GAN是一类神经网络,可以学习模仿给定的数据分布,可以像人类一样生成图像、音乐、语音或文本等素材。

GANs由两个神经网络组成,一个用于生成数据,另一个用于区分虚假数和真实数据。

判别模型

在训练过程中,将使用算法调整模型的参数。目标是最小化损失函数,以使模型学习在给定输入时的输出概率分布。在训练阶段之后,使用该模型通过估计输入对应的最可能的数字对手写数字图像进行分类。
 

生成模型

像GANs这样的生成模型经过训练,可以用概率模型来描述数据集是如何生成的。通过从生成模型中采样,可以生成新数据。判别模型用于监督学习,而生成模型通常用于未标记的数据集,可以看作是一种无监督学习。

为了输出新的样本,生成模型通常考虑一个随机元素影响模型生成的样本。用于驱动生成器的随机样本来自一个隐空间,其中的向量代表了生成样本的一种压缩形式。

与判别性模型不同,生成性模型学习输入数据x的概率P(x),通过掌握输入数据的分布,它们能够生成新的数据实例。

GAN架构

生成式对抗网络由两个神经网络组成,即生成器和判别器。

生成器的作用是估计真实样本的概率分布,以便提供与真实数据相似的生成样本。

判别器被训练来估计一个给定样本来自真实数据而不是由生成器提供的概率。

这些结构被称为生成式对抗网络,因为生成器和鉴别器被训练成相互竞争:生成器试图更好地欺骗鉴别器,而鉴别器则试图更好地识别生成的样本。

  • 23
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值