Recurrent Neural Networks 循环神经网络

最新推荐文章于 2024-09-01 17:15:48 发布

面向未来的历史

最新推荐文章于 2024-09-01 17:15:48 发布

阅读量543

点赞数

分类专栏： deep learning 文章标签：神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a1368783069/article/details/52249444

版权

deep learning 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

RNNs是很受欢迎的模型，在处理 NLP 任务方面很有前景。

结构

典型的RNN 全连接网络结构如下图所示：

这里写图片描述
右边是对左边的结构的简单描述。
进一步可以描述为：

这里写图片描述

在上图中，
$x_t$ 是在 t 时间序列时刻的输入，例如： $x_1$ 可以是 one-hot 向量对应的句子的第二个词。

$s_t$ 是隐藏层在时间步t的状态。是网络的记忆模块memory。

$o_t$ 是在时间步t 的输出。例如，想要预测句子中的下一个词，它的值将是字典中所有词的概率的向量。

根据上图流程，可知计算公式：

s t = f (U x t + W s t - 1)

$s_t = f(Ux_t + Ws_{t-1})$

f $f$ 一般为tanh，ReLU

o t = m a x s o f t (V s t)

$o_t = maxsoft(Vs_t)$
注： RNN 的 $W,U,V$ 参数都是相同的。

对于记忆模块 $s_t$ ，可以查看其记忆过程：

$s_1 = f(Ux_1 + Ws_{0})$
$s_2 = f(Ux_2 + Ws_{1}) = f(Ux_2 + Wf(Ux_1 + Ws_{0}))$
$s_3 = f(Ux_3 + Ws_{2}) = f(Ux_3 + Wf(Ux_2 + Wf(Ux_1 + Ws_{0})))$
$s_4 = f(Ux_4 + Ws_{3}) = f(Ux_4 + Wf(Ux_3 + Wf(Ux_2 + Wf(Ux_1 + Ws_{0}))))$

假设 $f(x)=x$ ，上式可以写为：
$s_4 = f(Ux_3 + Ws_{3}) = Ux_4 + WUx_3 + W^2Ux_2 + W^3Ux_1 + W^4s_{0}$

依次类推，可以知道，时间序列中，越早的输入与隐藏层状态前的权值 $W$ 的幂次越大。也就是说存在如下两种情况：

1， $W<1$ （或者 $f'<1$ ）, 随着 $t$ 越大， $x_0，s_0$ 等在前的序列的值越小，对 $s_t$ 的影响越小。对权值求导后，影响还是类似，这种情况被称为梯度消失问题。

2 ， $W>1$ （或者 $f'>1$ ），与上面情况相反，早先的序列值与状态对后面的影响越大。对权值求导后，影响还是类似，这种情况被称为梯度爆炸问题。

训练

跟传统的神经网络一样，使用方向传播算法进行训练。但是有一点不同，每一时间步的计算都会使用到前一步中的参数结果，如上式中所表示，这被称为Backpropagation Through Time (BPTT). 由于存在梯度消失／爆炸的问题，使用BPTT训练RNN 在学习长期依赖问题。目前存在一些方法来解决这个问题，看例如LSTM。

参考文章：
RNN
http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/

面向未来的历史

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。