循环神经网络

最新推荐文章于 2024-09-15 15:29:29 发布

饮尽夏日

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量54

点赞数

分类专栏：深度学习文章标签： rnn 人工智能深度学习

本文链接：https://blog.csdn.net/CrazySummerdrink/article/details/134170004

版权

15 篇文章 0 订阅

订阅专栏

如果说卷积神经网络可以有效地处理空间信息，那么循环神经网络（recurrent neural network，RNN）则可以更好地处理序列信息。
循环神经网络通过引入状态变量存储过去的信息和当前的输入，从而可以确定当前的输出。

在统计学中
- 预测明天的股价称为外推法，（extrapolation），对超出已知观测范围进行预测。
- 预测过去的股价称为内插法（interpolation），在现有观测值之间进行估计。
自回归模型（autoregressive models），对自己执行回归。
只需要满足某个长度为 $\tau$ 的时间跨度，即使用观测序列 $x_{t-1}, ... , x_{t-\tau}$ 。
隐变量自回归模型
马尔可夫模型：类似自回归模型的近似法，只要是这种近似精确的，我们就说序列满足马尔可夫条件（Markov condition）。
没有足够的历史记录来描述前 $\tau$ 个数据样本。一个简单的解决办法是：如果拥有足够长的序列就丢弃这几项；另一个方法是用零填充序列。

小结

内插法（在现有观测值之间进行估计）和外推法（对超出已知观测范围进行预测）在实践的难度上差别很大。因此，对于所拥有的序列数据，在训练时始终要尊重其时间顺序，即最好不要基于未来的数据进行训练。
序列模型的估计需要专门的统计工具，两种较流行的选择是自回归模型和隐变量自回归模型。
对于时间是向前推进的因果模型，正向估计通常比反向估计更容易。
于直到时间步t的观测序列，其在时间步t+k
的预测输出是“k步预测”。随着我们对预测时间
k值的增加，会造成误差的快速累积和预测质量的极速下降。

文本的常见预处理步骤通常包括：

假设长度为T的文本序列中的词元依次为 $x_1, x_2,...,x_T$ 。于是， $x_t(1≤t≤T)$
可以被认为是文本序列在时间步t处的观测或标签。在给定这样的文本序列时，语言模型（language model）的目标是估计序列的联合概率
$P(x_1,x_2,..,x_T)$

语言模型

许多合理的三个单词组合可能是存在的，但是在数据集中却找不到。除非我们提供某种解决方案，来将这些单词组合指定为非零计数，否则将无法在语言模型中使用它们。如果数据集很小，或者单词非常罕见，那么这类单词出现一次的机会可能都找不到。
一种常见的策略是执行某种形式的拉普拉斯平滑（Laplace smoothing），具体方法是在所有计数中添加一个小常量。

马尔可夫模型与n元语法

读取长序列数据

如果我们只选择一个偏移量，那么用于训练网络的、所有可能的子序列的覆盖范围将是有限的。因此，我们可以从随机偏移量开始划分序列，以同时获得覆盖性（coverage）和随机性（randomness）。

小结

通常，我们可以基于当前输入 $x_t$ 和先前隐状态 $h_{t-1}$ 来计算时间步t处的任何时间的隐状态：
$h_t = f(x_t, h_{t-1})$
注意：隐藏层和隐状态指的是两个截然不同的概念。
- 隐藏层是在从输入到输出的路径上（以观测角度来理解）的隐藏的层，
- 隐状态则是在给定步骤所做的任何事情（以技术角度来定义）的输入，并且这些状态只能通过先前时间步的数据来计算。
- 循环神经网络（recurrent neural networks，RNNs）是具有隐状态的神经网络。