循环神经网络

最新推荐文章于 2024-07-17 16:15:51 发布

lyp_20180630

最新推荐文章于 2024-07-17 16:15:51 发布

阅读量117

点赞数

分类专栏：人工智能

5 篇文章 0 订阅

订阅专栏

序列数据的例子：语音识别，音乐生成（输入是1,2,3等音符或者空），情感分类（输入一段文字，输出电影评分），视频行为识别，人名识别（给出一段文字，识别出里面的人名）
序列数据示例
注：输入输出的长度可以不等。

特点之一：三类参数在每个时间步共享，相同。即Wax,Waa,Wya。
在这里插入图片描述

在这里插入图片描述
RNN的时间反向传播损失是每个时间步的损失和。

（一对一，一对多，多对多）
在这里插入图片描述

预测句子中下一个次词是什么。
每一步的输出y指的是它是某个词的概率（基数是词典）
在这里插入图片描述

步骤：

在这里插入图片描述

不共享从文本不同位置上学到的特征。包括：
以前输入的是类似于一个表格里，列名是属性，行是一个个样本。如果神经网络学习了在位置1出现的Harry可能是人名，一旦它出现在其他位置，可能就识别不出来了。在A位置学习到识别人名的能力，但是B位置学不到，当人名出现在B位置时，B就识别不出来。
训练参数量巨大。输入网络的特征往往是one-hot或者embedding向量，维度大；当输入网络的序列长度很长时，输入向量巨大。
没有办法体现出序列的前因后果。

当序列太长时，容易导致梯度消失。参数更新只能扑捉到局部依赖关系，没法捕捉到序列之间的长期关联或者依赖关系。
在这里插入图片描述

在这里插入图片描述

特点：参数特别多----》容易过拟合
数据集少时倾向于使用GRU，但是数据集大的话，用LSTM性能更好。
在这里插入图片描述

LSTM有三个门，GRU只有两个门，分别是
重置门：有助于捕捉短期依赖关系；
更新门：有助于捕捉时间序列中长期的依赖关系。
在这里插入图片描述

举例子：

什么情况下需要双向RNN
在这里插入图片描述
还有那种带有LSTM的双向RNN。
缺点是：需要读入整个句子，要能够获取整个句子。

在这里插入图片描述

关注