RNN学习笔记

最新推荐文章于 2022-07-21 22:29:15 发布

izayoi

最新推荐文章于 2022-07-21 22:29:15 发布

阅读量1.7k

点赞数

分类专栏：神经网络文章标签： RNN

本文链接：https://blog.csdn.net/u010669138/article/details/49819821

版权

神经网络专栏收录该内容

1 篇文章 0 订阅

订阅专栏

RNN学习笔记

参考cs224d Lecture 7:Recurrent Neural Networks

RNN

RNN层数

RNN不是单隐层的神经网络，对于 $x_{t-1}$ 来说，其到输出 $y_{t+1}$ 经过了3个隐层。仅对于 $x_{t-1}$ 和 $y_{t+1}$ 来说，当去掉其它的 $x$ 和 $y$ ，可以看作是原始的有3个隐层的神经网络。需要注意的是MLP中每个结点代表一个标量数据，而RNN中的 $x_{t-1}$ 代表向量。

对RNN记忆前面层信息的理解

以序列标注为例，与原始MLP不同，RNN对每个序列中的每个 $x$ 向量区分处理，与当前时刻向量 $x_t$ 越远的向量，乘以的参数矩阵 $W$ 越多，对当前的输出影响越小。另外由于反向传播过程中运用链式法则求导，这种关系导致梯度成指数变化，可能极大或极小，会影响梯度下降。

输入输出意义

在该实例中，每个输入的 $x$ 是对应词的词向量，而输出的 $y$ 是维度为词典长的向量，每一维表示当前位置取词典中对应词的概率。

损失函数

损失函数定义为 $J^t(\theta)=-\sum_{j=1}^{|V|}y_{t,j}\log \hat{y}_{t,j}$ 。其中 $\hat{y}_{t,j}$ 表示模型输出的预测向量 $y$ 中第 $j$ 维，即在当前位置出现词表中第 $j$ 个词的概率。 $y_{t,j}$ 可以理解为one hot 的表示形式，其中的1对应训练样本中出现在该位置的正确的词，其它维都是0。

最大似然估计

最大似然估计是频率学派中用于优化参数的方法。频率学派认为对于一个给定问题，参数是确定的，而我们观测到的样本是随机变量。（贝叶斯学派相反，认为样本确定，参数是随机变量。）最大似然估计是通过调整参数，使得给定对应参数情况下观测到的样本出现的概率最大，从而求得最优化参数的方法。其中的似然（likelihood）指在给定参数和特征的情况下，观测到样本出现的概率。
严格来说是使得在经验分布的时候观测到样本出现概率最大，使得我们假设的模型逼近经验分布，而当样本所取数目足够多的时候，经验分布就会逼近实际分布。这里经验分布指的是样本集合中的分布。
最大似然的公式为：

a r g m a x θ (\prod p (y | x; θ))

$argmax_\theta (\prod p(y|x;\theta))$ 对其取对数不影响

argmax $argmax$ ：

a r g m a x θ (\sum log p (y | x; θ))

$argmax_\theta (\sum\log p(y|x;\theta))$ 在实际应用中，可能有些

x $x$ 在训练集中会出现很多次，为了加速计算，可以使用期望的形式：

a r g m a x θ (\sum p^(y | x) log p (y | x; θ)

$argmax_\theta(\sum\hat{p}(y|x)\log p(y|x;\theta)$ 注意这里两个求和符号意义不同，第一个是对每一个样本求和，第二个是对每一个 样本类求和。其中

p^ $\hat{p}$ 表示经验分布，即样本集合中出现该样本的概率，也可以说是给定

x $x$ 输出为

y $y$ 这类样本占样本总数的比例。

以上内容均为个人理解，如有疏漏，敬请指正！

izayoi

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
RNN学习笔记

RNN学习笔记参考cs224d Lecture 7:Recurrent Neural NetworksRNN层数RNN不是单隐层的神经网络，对于xt−1 x_{t-1}来说，其到输出yt+1y_{t+1}经过了3个隐层。仅对于xt−1x_{t-1}和yt+1y_{t+1}来说，当去掉其它的xx和yy，可以看作是原始的有3个隐层的神经网络。需要注意的是MLP中每个结点代表一个标量数据，而RNN中的xt
复制链接

扫一扫