RNN学习笔记

RNN学习笔记

参考cs224d Lecture 7:Recurrent Neural Networks

RNN

RNN层数

RNN不是单隐层的神经网络,对于 xt1 来说,其到输出 yt+1 经过了3个隐层。仅对于 xt1 yt+1 来说,当去掉其它的 x y,可以看作是原始的有3个隐层的神经网络。需要注意的是MLP中每个结点代表一个标量数据,而RNN中的 xt1 代表向量。

对RNN记忆前面层信息的理解

以序列标注为例,与原始MLP不同,RNN对每个序列中的每个 x 向量区分处理,与当前时刻向量xt越远的向量,乘以的参数矩阵 W 越多,对当前的输出影响越小。另外由于反向传播过程中运用链式法则求导,这种关系导致梯度成指数变化,可能极大或极小,会影响梯度下降。

输入输出意义

在该实例中,每个输入的x是对应词的词向量,而输出的 y 是维度为词典长的向量,每一维表示当前位置取词典中对应词的概率。

损失函数

损失函数定义为Jt(θ)=|V|j=1yt,jlogy^t,j。其中 y^t,j 表示模型输出的预测向量 y 中第j维,即在当前位置出现词表中第 j 个词的概率。yt,j可以理解为one hot 的表示形式,其中的1对应训练样本中出现在该位置的正确的词,其它维都是0。

最大似然估计

最大似然估计是频率学派中用于优化参数的方法。频率学派认为对于一个给定问题,参数是确定的,而我们观测到的样本是随机变量。(贝叶斯学派相反,认为样本确定,参数是随机变量。)最大似然估计是通过调整参数,使得给定对应参数情况下观测到的样本出现的概率最大,从而求得最优化参数的方法。其中的似然(likelihood)指在给定参数和特征的情况下,观测到样本出现的概率。
严格来说是使得在经验分布的时候观测到样本出现概率最大,使得我们假设的模型逼近经验分布,而当样本所取数目足够多的时候,经验分布就会逼近实际分布。这里经验分布指的是样本集合中的分布。
最大似然的公式为:

argmaxθ(p(y|x;θ))
对其取对数不影响 argmax
argmaxθ(logp(y|x;θ))
在实际应用中,可能有些 x 在训练集中会出现很多次,为了加速计算,可以使用期望的形式:
argmaxθ(p^(y|x)logp(y|x;θ)
注意这里两个求和符号意义不同,第一个是对每一个 样本求和,第二个是对每一个 样本类求和。其中 p^ 表示经验分布,即样本集合中出现该样本的概率,也可以说是给定 x 输出为y这类样本占样本总数的比例。

以上内容均为个人理解,如有疏漏,敬请指正!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值