# 循环神经网络

2255人阅读 评论(0)

## RNN模型

RNN模型最抽象的画法就是下面这种了，但它不太好理解，因为它将时间维度挤压了。其中x是输入，U是输出层到隐含层的权重，s是隐含层值，W则是上个时刻隐含层作为这个时刻输入的权重，V是隐含层到输出层的权重，o是输出。

## RNN的正向传播

nett=Vst$net_t = V\mathrm{s}_t$

ot=σ(nett)$\mathrm{o}_t=\sigma (net_t)$

ht=Uxt+Wst1$h_t=U\mathrm{x}_t+W\mathrm{s}_{t-1}$

st=σ(ht)$\mathrm{s}_t=\sigma(h_{t})$

st=σ(Uxt+Wσ(Uxt1+Wst2))$\mathrm{s}_t=\sigma (U\mathrm{x}_t+W\sigma(U\mathrm{x}_{t-1}+W\mathrm{s}_{t-2}))$

## RNN的训练

E$E$

Etnett=Etototnett=E(ot)σ(nett)$\frac{\partial E_t}{\partial net_t} = \frac{\partial E_t}{\partial o_t} \frac{\partial o_t}{\partial net_t} = {E}'(o_t){\sigma}'(net_t)$

EtV=EtnettnettV=Etnettst$\frac{\partial E_t}{\partial V} = \frac{\partial E_t}{\partial net_t} \frac{\partial net_t}{\partial V} = \frac{\partial E_t}{\partial net_t}s_t$

EtW=EtnettnettststW$\frac{\partial E_t}{\partial W} = \frac{\partial E_t}{\partial net_t} \frac{\partial net_t}{\partial s_t} \frac{\partial s_t}{\partial W}$

EW=tEtW=tk=0Etnettnettst(tj=k+1stsk)skW$\frac{\partial E}{\partial W} = \sum^t \frac{\partial E_t}{\partial W} = \sum_{k=0}^t \frac{\partial E_t}{\partial net_t} \frac{\partial net_t}{\partial s_t} (\prod_{j=k+1}^{t}\frac{\partial s_t}{\partial s_k}) \frac{\partial s_k}{\partial W}$

EW=tk=0EtnettnettststskskW$\frac{\partial E}{\partial W} = \sum_{k=0}^t \frac{\partial E_t}{\partial net_t} \frac{\partial net_t}{\partial s_t} \frac{\partial s_t}{\partial s_k} \frac{\partial s_k}{\partial W}$

EU=EhthtU=Ehtxt$\frac{\partial E}{\partial U} = \frac{\partial E}{\partial h_t} \frac{\partial h_t}{\partial U} = \frac{\partial E}{\partial h_t}x_t$

## 梯度消失或梯度爆炸

EW=tEtW=tk=0Etnettnettst(tj=k+1stsk)skW$\frac{\partial E}{\partial W} = \sum^t \frac{\partial E_t}{\partial W} = \sum_{k=0}^t \frac{\partial E_t}{\partial net_t} \frac{\partial net_t}{\partial s_t} (\prod_{j=k+1}^{t}\frac{\partial s_t}{\partial s_k}) \frac{\partial s_k}{\partial W}$

## RNN简单应用例子

========广告时间========

=========================

作者
个人资料
等级：
访问量： 109万+
积分： 1万+
排名： 1018
博客专栏
 java开源研究 文章：41篇 阅读：168976 Java并发 文章：22篇 阅读：71920 tomcat内核 文章：83篇 阅读：312285 集群 文章：16篇 阅读：63387 通信框架Tribes 文章：8篇 阅读：22368 Hazelcast 文章：5篇 阅读：28266 mysql协议 文章：20篇 阅读：31685 自然语言处理 文章：14篇 阅读：37105 机器学习&深度学习 文章：39篇 阅读：91918 JDK源码 文章：39篇 阅读：104078
最新评论