双向循环神经网络

原文链接:动手学深度学习pytorch版:6.10 双向循环神经网络
github:https://github.com/ShusenTang/Dive-into-DL-PyTorch

双向循环神经网络

之前介绍的循环神经网络模型都是假设当前时间步是由前面的较早时间步的序列决定的,因此它们都将信息通过隐藏状态从前往后传递。有时候,当前时间步也可能由后面时间步决定。例如,当我们写下一个句子时,可能会根据句子后面的词来修改句子前面的用词。双向循环神经网络通过增加从后往前传递信息的隐藏层来更灵活地处理这类信息。图6.12演示了一个含单隐藏层的双向循环神经网络的架构。
请添加图片描述
下面我们来介绍具体的定义。给定时间步 t t t 的小批量输入 X t ∈ R n × d \boldsymbol{X}_{t} \in \mathbb{R}^{n \times d} XtRn×d (样本数为 n n n, 输入个数为 d d d ) 和隐藏层激活函数为 ϕ ∘ \phi_{\circ} ϕ 在双向循环神经网络 的架构中,设该时间步正向隐藏状态为 H ⃗ t ∈ R n × h \vec{H}_{t} \in \mathbb{R}^{n \times h} H tRn×h (正向隐藏单元个数为 h ) \left.h\right) h), 反向隐藏状态为 H ← t ∈ R n × h ( \overleftarrow{H}_{t} \in \mathbb{R}^{n \times h}( H tRn×h( 反向隐藏单元个数为 h ) h) h) 。我们 可以分别计算正向隐藏状态和反向隐藏状态:
H → t = ϕ ( X t W x h ( f ) + H → t − 1 W h h ( f ) + b h ( f ) ) H ← t = ϕ ( X t W x h ( b ) + H ← t + 1 W h h ( b ) + b h ( b ) ) \begin{aligned} &\overrightarrow{\boldsymbol{H}}_{t}=\phi\left(\boldsymbol{X}_{t} \boldsymbol{W}_{x h}^{(f)}+\overrightarrow{\boldsymbol{H}}_{t-1} \boldsymbol{W}_{h h}^{(f)}+\boldsymbol{b}_{h}^{(f)}\right) \\ &\overleftarrow{\boldsymbol{H}}_{t}=\phi\left(\boldsymbol{X}_{t} \boldsymbol{W}_{x h}^{(b)}+\overleftarrow{\boldsymbol{H}}_{t+1} \boldsymbol{W}_{h h}^{(b)}+\boldsymbol{b}_{h}^{(b)}\right) \end{aligned} H t=ϕ(XtWxh(f)+H t1Whh(f)+bh(f))H t=ϕ(XtWxh(b)+H t+1Whh(b)+bh(b))

其中权重 W x h ( f ) ∈ R d × h , W h h ( f ) ∈ R h × h , W x h ( b ) ∈ R d × h , W h h ( b ) ∈ R h × h  和偏差  b h ( f ) ∈ R 1 × h , b h ( b ) ∈ R 1 × h  均为模型参数。  \boldsymbol{W}_{x h}^{(f)} \in \mathbb{R}^{d \times h}, \boldsymbol{W}_{h h}^{(f)} \in \mathbb{R}^{h \times h}, \boldsymbol{W}_{x h}^{(b)} \in \mathbb{R}^{d \times h}, \boldsymbol{W}_{h h}^{(b)} \in \mathbb{R}^{h \times h \text { 和偏差 } \boldsymbol{b}_{h}^{(f)} \in \mathbb{R}^{1 \times h}, \boldsymbol{b}_{h}^{(b)} \in \mathbb{R}^{1 \times h} \text { 均为模型参数。 }} Wxh(f)Rd×h,Whh(f)Rh×h,Wxh(b)Rd×h,Whh(b)Rh×h 和偏差 bh(f)R1×h,bh(b)R1×h 均为模型参数。 

然后我们连结两个方向的隐藏状态 H ⃗ t \vec{H}_{t} H t H ← t \overleftarrow{H}_{t} H t 来得到隐藏状态 H t ∈ R n × 2 h \boldsymbol{H}_{t} \in \mathbb{R}^{n \times 2 h} HtRn×2h, 并将其输入到输出层。 输出层计算输出 O t ∈ R n × q \boldsymbol{O}_{t} \in \mathbb{R}^{n \times q} OtRn×q (输出个数为 q q q ):

O t = H t W h q + b q , \boldsymbol{O}_{t}=\boldsymbol{H}_{t} \boldsymbol{W}_{h q}+\boldsymbol{b}_{q}, Ot=HtWhq+bq,

小结

  • 双向循环神经网络在每个时间步的隐藏状态同时取决于该时间步之前和之后的子序列(包括当前时间步的输入)。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值