4.8.双向循环神经网络

lsslcj

已于 2024-08-04 10:31:03 修改

阅读量239

点赞数 10

分类专栏： ai相关文章标签： rnn 人工智能深度学习自然语言处理

于 2024-08-04 10:23:22 首次发布

本文链接：https://blog.csdn.net/shiki217_/article/details/140902717

版权

ai相关专栏收录该内容

32 篇文章 1 订阅

订阅专栏

双向循环神经网络

在序列模型中，我们总是关注之前的信息，并以此来对下一个输出进行预测，但可能未来的信息也很重要，比如文本序列填空：

我___。
我___饿了。
我___饿了，我可以吃半头猪。

我们可以分别填，happy,not, very。但很明显，very更为合适，因为下文传达了非常重要的信息（如果有的话)，所以无法利用这一点的序列模型将在相关任务上表现不佳。

例如，命名实体识别('Green’是绿色还是格林先生)，不同长度的上下文范围重要性是相同的。

1.双向模型

在这里插入图片描述

想让模型拥有一定程度的前瞻能力，只需要增加一个从最后一个词元开始从后向前运行的循环神经网络，而不是只有一个在前向模式下运行的循环神经网络。

双向循环神经网络(bidirectional RNNs)添加了反向传递信息的隐藏层，以便更灵活地处理此类信息。

1.1 定义

对于任意时间步 $t$ ，给定一个小批量的输入数据 $X_t\in R^{n\times d}$ （样本数 $n$ ，每个示例中的输入数 $d$ ），并且令隐藏层激活函数为 $\phi$ 。在双向架构中，我们设该时间步的前向和反向隐状态分别为 $\overrightarrow{H}_t,\overleftarrow{H}_t \in R^{n\times h}$ ，其中 $h$ 是隐藏单元的数目。前向和反向隐状态的更新如下：
$\overrightarrow{H}_t = \phi(X_t W_{xh}^{(f)}+\overrightarrow{H}_{t-1}W^{f}_{hh}+b_h^{(f)})\\ \overleftarrow{H}_t = \phi(X_t W_{xh}^{(b)}+\overleftarrow{H}_{t+1}W_{hh}^{(b)}+b_h^{(b)})$
其中权重 $W_{xh}^{(f)},W_{xh}^{(b)}\in R^{d\times h}，W_{hh}^{(f)},W_{hh}^{(b)}\in R^{h\times h}$ ,偏置 $b_h^{(f)},b_h^{(b)}\in R ^{1\times h}$ 都是模型参数。

随后，将前向隐状态 $\overrightarrow{H}_t$ 和反向隐状态 $\overleftarrow{H}_t$ 连接起来，获得需要送入输出层的隐状态 $H_t\in R^{n\times 2h}$ ，在具有多个隐藏层的深度双向循环神经网络中，该信息作为输入传递到下一个双向层。最后，输出层计算得到的输出为 $O_t\in R^{n\times q}$ (q是输出单元的数目)：
$O_t = H_t W_{hq}+b_q$
这里，权重矩阵 $W_{hq}\in R^{2h\times q}$ 和偏置 $b_q\in R^{1\times q}$ 是输出层的模型参数。这两个方向可以有不同数量的隐藏单元。

2.代码实现(错误应用)

双向循环神经网络使用了过去和未来的数据，所以不能盲目地将这一语言模型应用于任何预测任务。尽管模型产出的困惑度是合理的，该模型预测未来词元的能力却可能存在严重缺陷。

下面的代码用来展示如何使用双向LSTM模型，引以为戒。

import torch
from torch import nn
from d2l import torch as d2l

# 加载数据
batch_size, num_steps, device = 32, 35, d2l.try_gpu()
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)
# 通过设置“bidirective=True”来定义双向LSTM模型
vocab_size, num_hiddens, num_layers = len(vocab), 256, 2
num_inputs = vocab_size
lstm_layer = nn.LSTM(num_inputs, num_hiddens, num_layers, bidirectional=True)
model = d2l.RNNModel(lstm_layer, len(vocab))
model = model.to(device)
# 训练模型
num_epochs, lr = 500, 1
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)

'''
perplexity 1.1, 131129.2 tokens/sec on cuda:0
time travellerererererererererererererererererererererererererer
travellerererererererererererererererererererererererererer
'''

lsslcj

关注

10
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
4.8.双向循环神经网络

对于任意时间步ttt，给定一个小批量的输入数据Xt∈Rn×dXt∈Rn×d（样本数nnn，每个示例中的输入数ddd），并且令隐藏层激活函数为ϕ\phiϕ。在双向架构中，我们设该时间步的前向和反向隐状态分别为H→tH←t∈Rn×hHtHt∈Rn×h，其中hhh是隐藏单元的数目。
复制链接

扫一扫

专栏目录