（五）循环神经网络 -- 9 双向循环神经网络

最新推荐文章于 2024-08-16 21:32:49 发布

Fiona-Dong

最新推荐文章于 2024-08-16 21:32:49 发布

阅读量585

点赞数 1

分类专栏：动手学深度学习-TF2.0（读书笔记）

原文链接：https://trickygo.github.io/Dive-into-DL-TensorFlow2.0/#/chapter06_RNN/6.10_bi-rnn

版权

动手学深度学习-TF2.0（读书笔记）专栏收录该内容

45 篇文章 13 订阅

订阅专栏

9. 双向循环神经网络

之前介绍的循环神经网络模型，都是假设当前时间步是由前面的较早时间步的序列决定的，因此它们都将信息通过隐藏状态从前往后传递。

有时候，当前时间步也可能由后面时间步决定。
例如，当我们写下一个句子时，可能会根据句子后面的词来修改句子前面的用词。

双向循环神经网络，通过增加从后往前传递信息的隐藏层来更灵活地处理这类信息。

一个含单隐藏层的双向循环神经网络的架构，如下图所示：

具体来说，给定时间步 $t$ 的小批量输入 $\boldsymbol{X}_t \in \mathbb{R}^{n \times d}$ （样本数为 $n$ ，输入个数为 $d$ ）和隐藏层激活函数为 $\phi$ 。在双向循环神经网络的架构中，设该时间步正向隐藏状态为 $\overrightarrow{\boldsymbol{H}}_t \in \mathbb{R}^{n \times h}$ （正向隐藏单元个数为 $h$ ），反向隐藏状态为 $\overleftarrow{\boldsymbol{H}}_t \in \mathbb{R}^{n \times h}$ （反向隐藏单元个数为 $h$ ），可以分别计算正向隐藏状态和反向隐藏状态：

$\begin{aligned} \overrightarrow{\boldsymbol{H}}_t &= \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(f)} + \overrightarrow{\boldsymbol{H}}_{t-1} \boldsymbol{W}_{hh}^{(f)} + \boldsymbol{b}_h^{(f)})\\ \overleftarrow{\boldsymbol{H}}_t &= \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(b)} + \overleftarrow{\boldsymbol{H}}_{t+1} \boldsymbol{W}_{hh}^{(b)} + \boldsymbol{b}_h^{(b)}) \end{aligned}$

其中，权重 $\boldsymbol{W}_{xh}^{(f)} \in \mathbb{R}^{d \times h}$ 、 $\boldsymbol{W}_{hh}^{(f)} \in \mathbb{R}^{h \times h}$ 、 $\boldsymbol{W}_{xh}^{(b)} \in \mathbb{R}^{d \times h}$ 、 $\boldsymbol{W}_{hh}^{(b)} \in \mathbb{R}^{h \times h}$ 和偏差 $\boldsymbol{b}_h^{(f)} \in \mathbb{R}^{1 \times h}$ 、 $\boldsymbol{b}_h^{(b)} \in \mathbb{R}^{1 \times h}$ 均为模型参数。

之后，连结两个方向的隐藏状态 $\overrightarrow{\boldsymbol{H}}_t$ 和 $\overleftarrow{\boldsymbol{H}}_t$ 来得到隐藏状态 $\boldsymbol{H}_t \in \mathbb{R}^{n \times 2h}$ ，并将其输入到输出层。
输出层计算输出 $\boldsymbol{O}_t \in \mathbb{R}^{n \times q}$ （输出个数为 $q$ ）：