#深度学习继卷积之后—RNN

王严培.

已于 2024-10-05 15:14:31 修改

阅读量690

点赞数 19

文章标签：人工智能深度学习 rnn

于 2024-10-05 15:13:45 首次发布

本文链接：https://blog.csdn.net/disciplining/article/details/142714614

版权

概述

BP算法,CNN之后,为什么还有RNN?

细想BP算法,CNN(卷积神经网络可参考[#深度学习到卷积-CSDN博客]）我们会发现, 他们的输出都是只考虑前一个输入的影响而不考虑其它时刻输入的影响, 比如简单的猫,狗,手写数字等单个物体的识别具有较好的效果. 但是, 对于一些与时间先后有关的, 比如股票的每日涨跌,文档前后文内容的预测等, 这些算法不是很适合出列这些，所以RNN就出现了。

RNN是什么？

循环神经网络（Recurrent Neural Network, RNN）是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion）且所有节点（循环单元）按链式连接的递归神经网络（recursive neural network）。

RNN是一种特殊的神经网络结构, 它是根据人的认知是基于过往的经验和记忆这一观点提出的. 它与DNN,CNN不同的是: 它不仅考虑前一时刻的输入,而且赋予了网络对前面的内容的一种记忆功能.

我的理解就是可以将输入的一连串数据通过将前一次传入数据经过计算的结果(举个例子就是传统神经网络当中的权重参数)带入到下一次计算中也就是实现前后数据相关性

RNN网络架构解读

1.基本结构

x为输入层

h为隐藏层

out为输出层

RNN就是在CNN的基础上在隐藏层进行了改进

可以将前一个时刻训练出来的结果特征也可以对后一时刻的结果产生影响

比如第一个传入的数据是x1，在传入x2数据时，x1的中间特征结果h1也会参与到计算x2中间特征h2结果的过程中，它们两个是同时传入到隐层当中的

CNN主要运用到CV（计算机视觉）

RNN主要运用到NLP(自然语言处理)

2.展开结构

X0,X1,X2...Xt表示输入数据

有写数据可能没有人为的切分成时间序列但是可以自己来切分

例如可以把今天分为多个时间段，X0表示早上股票的价格，X1表示上午股票的价格，X2表示中午股票的价格...

h0，h1，h2...ht 代表中间结果最后选出一个结果ht 剩下的h0，h1...就当成中间结果

例如：

输入I am Chinese，I Love China

那么X0就是输入的I X1就是输入的am...Xt就是输入的China

但是单词不能进行编码所以就引出来了一个Word Embedding

World Vector就是找到一个映射或者函数，生成在一个新的空间上的表达。通俗的翻译可以认为是单词嵌入，就是把X所属空间的单词映射为到Y空间的多维向量，那么该多维向量相当于嵌入到Y所属空间中。

通俗易懂的说就是可以将一个词转换成一个向量方便计算机识别计算

3.RNN的缺点

1.梯度消失和爆炸

首先了解一下什么是梯度消失和梯度爆炸

梯度消失：

网络层之间的梯度（值小于 1.0）重复相乘导致的指数级减小会产生梯度消失，主要是因为网络层数太多，太深，导致梯度无法传播，如果导数小于1，那么随着网络层数的增加梯度更新信息会朝着指数衰减的方式减少，从而导致层数比较浅的权重没有更新，这就是梯度消失。

梯度爆炸：

如果导数大于1，梯度呈指数级增长，变的非常大，然后导致网络权重的大幅更新，使网络变得不稳定。

RNN在训练中很容易发生梯度爆炸和梯度消失，这导致梯度不能在较长序列中一直传递下去，从而使RNN无法捕捉到长距离的影响。

通常来说，梯度爆炸更容易处理一些。因为梯度爆炸的时候，我们的程序会收到NaN错误。我们也可以设置一个梯度阈值，当梯度超过这个阈值的时候可以直接截取。

梯度消失更难检测，而且也更难处理一些。总的来说，我们有三种方法应对梯度消失问题：

1、合理的初始化权重值。初始化权重，使每个神经元尽可能不要取极大或极小值，以躲开梯度消失的区域。

2、使用relu代替sigmoid和tanh作为激活函数。

3、使用其他结构的RNN，比如长短时记忆网络（LTSM）

2.短期记忆

假如需要判断用户的说话意图（问天气、问时间、设置闹钟…），用户说了一句“what time is it？”我们需要先对这句话进行分词：

然后按照顺序输入 RNN ，我们先将 “what”作为 RNN 的输入，得到输出「01」

然后，我们按照顺序，将“time”输入到 RNN 网络，得到输出「02」。

这个过程我们可以看到，输入 “time” 的时候，前面 “what” 的输出也产生了影响（隐藏层中有一半是黑色的）。

以此类推，前面所有的输入都对未来的输出产生了影响，大家可以看到圆形隐藏层中包含了前面所有的颜色。如下图所示：

当我们判断意图的时候，只需要最后一层的输出「05」，如下图所示：

短期的记忆影响较大（如橙色区域），但是长期的记忆影响就很小（如黑色和绿色区域），这就是 RNN 存在的短期记忆问题。

文章出处：深度学习05-RNN循环神经网络-CSDN博客（侵权必删）

但是在LSTM网络就可以解决

LSTM就是在RNN的基础上进行改进加上了一个C参数控制单元可以控制当前模型复杂度

模型复杂度可以进行信息的过滤因为RNN当中吸取的信息太多了并不都是有用的

LSTM就可以进行过滤判断选择遗忘掉

下面这个图片可以更好的理解

自然语言处理-词向量模型-Word2Vec

如果建立一个机器模型能把文本数据直接输入到算法当中吗？

计算机只认识一些数值数据所以要把传入的数据转换成数值数据

词嵌入模型： 利用深度学习方法，通过训练大规模语料库来学习词的向量表示，能够捕捉词的语义和语法信息，将词表示为高维空间中的向量

例如:

在词向量空间当中意思相近的位置离得比较近

将单词转换成向量之后就可以进行计算向量和向量之间就可以进行相似度的计算

模型整体架构

词向量的表示

Word2Vec将单词转换成50维度大小的向量有多少维就有多少个数可以看作是50个特征

词向量通过热度图展现出的结果（颜色越深数值越大）：

在结果中可以发现，相似的词在特征表达中比较相似，证明词的特征是有实际意义的

man和boy有相同之处如图：

man，boy和water却没有很明显的相似实际意义就是在词向量空间当中 man和boy的位置比较近，water和他们两个离的位置比较远

词向量模型的输入和输出

Thou和shalt是两个输入的词和神经网络当中多分类任务相似最后要做分类任务在语言库当中是哪个词的概率最高中间的大部分就是NN(神经网路)

Embedding_lookup：

嵌入查找，也称为词嵌入（Word Embedding），是一种将文本数据转换为数值表示的技术，在自然语言处理（NLP）中广泛应用。它通常用于深度学习模型中，如神经网络，特别是循环神经网络（RNNs）和Transformer架构。在词嵌入中，每个词汇（比如单词、短语或字符）都被映射到一个多维向量空间中的点，这个过程捕捉了词语之间的语义和语法关联。

举个例子，如果你有一个词汇表，你可以为每个词分配一个固定大小的向量，相似的词在向量空间中的距离会比较近。这使得机器能够理解和处理诸如“国王”和“王子”这样的词有类似的含义，因为它们的向量更接近。常见的词嵌入模型包括Word2Vec、GloVe和FastText等。

每一行表示一个单词的向量格子里是数值可以看作是特征

Thou shalt输入之后需要在Embedding_lookup词库的大表当中找到对应的向量

找到词向量之后就可以进行卷积计算然后进行一系列操作

Embedding lookup的数据来源：

词汇表：首先，需要有一个预训练的词汇表，它包含了所有可能出现的单词或者标记。这个词汇表的大小决定了词嵌入矩阵的维度。
初始化向量：对于每一个词汇表中的单词，RNN模型会分配一个初始的词嵌入向量。这些向量通常是由随机生成的，也可以使用预训练的模型（如Word2Vec、GloVe等）获取，或者是通过其他方法（比如均匀分布或正太分布）生成。
查找表：当接收到一个新的输入词时，比如“apple”，这个单词会被转换成其对应的索引，然后在这个预定义的词嵌入矩阵中查找对应的位置。查找的结果就是该词在高维空间的表示(词向量)。
动态更新：在RNN的每次迭代中，如果遇到新的单词，就使用它的词嵌入；如果是之前见过的词，则直接使用之前存储的词向量。这样，RNN可以捕获单词的历史上下文信息，并随着网络的学习不断调整这些词嵌入向量。

也就是一开始词库大表是随机进行初始化的随着训练的进行每次都会把输入的数据再进行更新

神经网络要解决的问题是输入词的词向量应该是什么表达计算机可以把它下一个词猜的更加准确