双向循环神经网络

最新推荐文章于 2023-03-14 10:52:20 发布

ywm_up

最新推荐文章于 2023-03-14 10:52:20 发布

阅读量729

点赞数

分类专栏： NLP/ML/DL 文章标签：神经网络深度学习 pytorch

原文链接：https://tangshusen.me/Dive-into-DL-PyTorch/#/chapter06_RNN/6.10_bi-rnn

版权

NLP/ML/DL 专栏收录该内容

49 篇文章 7 订阅

订阅专栏

原文链接：动手学深度学习pytorch版：6.10 双向循环神经网络
 github：https://github.com/ShusenTang/Dive-into-DL-PyTorch

双向循环神经网络

之前介绍的循环神经网络模型都是假设当前时间步是由前面的较早时间步的序列决定的，因此它们都将信息通过隐藏状态从前往后传递。有时候，当前时间步也可能由后面时间步决定。例如，当我们写下一个句子时，可能会根据句子后面的词来修改句子前面的用词。双向循环神经网络通过增加从后往前传递信息的隐藏层来更灵活地处理这类信息。图6.12演示了一个含单隐藏层的双向循环神经网络的架构。
请添加图片描述
下面我们来介绍具体的定义。给定时间步 $t$ 的小批量输入 $\boldsymbol{X}_{t} \in \mathbb{R}^{n \times d}$ (样本数为 $n$ , 输入个数为 $d$ ) 和隐藏层激活函数为 $\phi_{\circ}$ 在双向循环神经网络的架构中，设该时间步正向隐藏状态为 $\vec{H}_{t} \in \mathbb{R}^{n \times h}$ (正向隐藏单元个数为 $\left.h\right)$ , 反向隐藏状态为 $\overleftarrow{H}_{t} \in \mathbb{R}^{n \times h}($ 反向隐藏单元个数为 $h)$ 。我们可以分别计算正向隐藏状态和反向隐藏状态:
$\begin{aligned} &\overrightarrow{\boldsymbol{H}}_{t}=\phi\left(\boldsymbol{X}_{t} \boldsymbol{W}_{x h}^{(f)}+\overrightarrow{\boldsymbol{H}}_{t-1} \boldsymbol{W}_{h h}^{(f)}+\boldsymbol{b}_{h}^{(f)}\right) \\ &\overleftarrow{\boldsymbol{H}}_{t}=\phi\left(\boldsymbol{X}_{t} \boldsymbol{W}_{x h}^{(b)}+\overleftarrow{\boldsymbol{H}}_{t+1} \boldsymbol{W}_{h h}^{(b)}+\boldsymbol{b}_{h}^{(b)}\right) \end{aligned}$

其中权重 $\boldsymbol{W}_{x h}^{(f)} \in \mathbb{R}^{d \times h}, \boldsymbol{W}_{h h}^{(f)} \in \mathbb{R}^{h \times h}, \boldsymbol{W}_{x h}^{(b)} \in \mathbb{R}^{d \times h}, \boldsymbol{W}_{h h}^{(b)} \in \mathbb{R}^{h \times h \text { 和偏差 } \boldsymbol{b}_{h}^{(f)} \in \mathbb{R}^{1 \times h}, \boldsymbol{b}_{h}^{(b)} \in \mathbb{R}^{1 \times h} \text { 均为模型参数。 }}$

然后我们连结两个方向的隐藏状态 $\vec{H}_{t}$ 和 $\overleftarrow{H}_{t}$ 来得到隐藏状态 $\boldsymbol{H}_{t} \in \mathbb{R}^{n \times 2 h}$ , 并将其输入到输出层。输出层计算输出 $\boldsymbol{O}_{t} \in \mathbb{R}^{n \times q}$ (输出个数为 $q$ ):

$\boldsymbol{O}_{t}=\boldsymbol{H}_{t} \boldsymbol{W}_{h q}+\boldsymbol{b}_{q},$

小结

双向循环神经网络在每个时间步的隐藏状态同时取决于该时间步之前和之后的子序列（包括当前时间步的输入）。

ywm_up

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
双向循环神经网络

原文链接：动手学深度学习pytorch版：6.10 双向循环神经网络github：https://github.com/ShusenTang/Dive-into-DL-PyTorch双向循环神经网络之前介绍的循环神经网络模型都是假设当前时间步是由前面的较早时间步的序列决定的，因此它们都将信息通过隐藏状态从前往后传递。有时候，当前时间步也可能由后面时间步决定。例如，当我们写下一个句子时，可能会根据句子后面的词来修改句子前面的用词。双向循环神经网络通过增加从后往前传递信息的隐藏层来更灵活地处理这类信息。图
复制链接

扫一扫

专栏目录