提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
机器翻译是指将一段文本从一种语言自动翻译到另一种语言。因为一段文本序列在不同语言中的长度不一定相同,所以我们使用机器翻译为例来介绍编码器—解码器和注意力机制的应用。
实验流程
1.读取和预处理数据
先定义一些特殊符号。
“pad”:用来添加在较短序列后,直到每个序列等长。
“bos” :表示序列的开始。
“eos”:表示序列的结束。
!tar -xf d2lzh_pytorch.tar
import collections # 用于计数和操作容器数据结构
import os # 提供了一种便携式方式使用操作系统功能
import io # 提供了Python的核心工具,用于处理各种I/O操作
import math # 提供了数学函数的定义
import torch # PyTorch的主库
from torch import nn # PyTorch的神经网络模块
import torch.nn.functional as F # 包含了很多有用的函数, 包括激活函数、loss等
import torchtext.vocab as Vocab # 用于处理词汇相关的任务
import torch.utils.data as Data # 用于数据加载和预处理
import sys # 提供对解释器使用或操作的访问
# sys.path.append("..") # 添加上级目录到系统路径,以便导入自定义模块
import d2lzh_pytorch as d2l # 导入自定义的工具包,这里是d2lzh_pytorch工具
# 定义了一些特殊的token,用于填充(pad)、句子开始(bos)、句子结束(eos)
PAD, BOS, EOS = '<pad>', '<bos>', '<eos>'
# 设置CUDA设备,选择使用哪个GPU
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
# 检查是否有GPU可用,有则使用cuda设备,否则使用cpu设备
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
# 打印PyTorch的版本和当前使用的设备
print(torch.__version__, device)
接着定义两个辅助函数对后面读取的数据进行预处理。
# 将一个序列中所有的词记录在all_tokens中以便之后构造词典,然后在该序列后面添加PAD直到序列
# 长度变为max_seq_len,然后将序列保存在all_seqs中
def process_one_seq(seq_tokens, all_tokens, all_seqs, max_seq_len):
all_tokens.extend(seq_tokens) # 将当前序列中的所有词添加到all_tokens中
seq_tokens += [EOS] + [PAD] * (max_seq_len - len(seq_tokens) - 1) # 在序列末尾添加EOS和PAD直到序列长度为max_seq_len
all_seqs.append(seq_tokens) # 将处理后的序列添加到all_seqs中
# 使用所有的词来构造词典。并将所有序列中的词变换为词索引后构造Tensor
def build_data(all_tokens, all_seqs):
vocab = Vocab.Vocab(collections.Counter(all_tokens), # 使用所有的词来构建词典
specials=[PAD, BOS, EOS]) # 指定特殊的标记
indices = [[vocab.stoi[w] for w in seq] for seq in all_seqs] # 将所有序列中的词转换为词索引
return vocab, torch.tensor(indices) # 返回构建的词典和转换后的Tensor
这里使用一个很小的法语—英语数据集。在这个数据集里,每一行是一对法语句子和它对应的英语句子,中间使用’\t’隔开。在读取数据时,我们在句末附上“”符号,并可能通过添加“”符号使每个序列的长度均为max_seq_len。我们为法语词和英语词分别创建词典。法语词的索引和英语词的索引相互独立。
def read_data(max_seq_len):
# in和out分别是input和output的缩写
in_tokens, out_tokens, in_seqs, out_seqs = [], [], [], [] # 初始化输入和输出的词列表及序列列表
with io.open('fr-en-small.txt') as f: # 打开文件读取数据
lines = f.readlines() # 读取所有行
for line in lines:
in_seq, out_seq = line.rstrip().split('\t') # 去除行尾空白并按制表符分割成输入和输出序列
in_seq_tokens, out_seq_tokens = in_seq.split(' '), out_seq.split(' ') # 将序列按空格分割成词列表
if max(len(in_seq_tokens), len(out_seq_tokens)) > max_seq_len - 1:
continue # 如果加上EOS后长于max_seq_len,则忽略掉此样本
process_one_seq(in_seq_tokens, in_tokens, in_seqs, max_seq_len) # 处理输入序列
process_one_seq(out_seq_tokens, out_tokens, out_seqs, max_seq_len) # 处理输出序列
in_vocab, in_data = build_data(in_tokens, in_seqs) # 构建输入词典和数据
out_vocab, out_data = build_data(out_tokens, out_seqs) # 构建输出词典和数据
return in_vocab, out_vocab, Data.TensorDataset(in_data, out_data) # 返回词典和数据集
将序列的最大长度设成7,然后查看读取到的第一个样本。该样本分别包含法语词索引序列和英语词索引序列。
max_seq_len = 7 # 设置最大序列长度为7
in_vocab, out_vocab, dataset = read_data(max_seq_len) # 读取数据并构建词典和数据集
dataset[0] # 打印数据集的第一个样本
2.构建含注意力机制的编码器—解码器
2.1.编码器
在编码器中,我们将输入语言的词索引通过词嵌入层得到词的表征,然后输入到一个多层门控循环单元中。PyTorch的nn.GRU实例在前向计算后也会分别返回输出和最终时间步的多层隐藏状态。其中的输出指的是最后一层的隐藏层在各个时间步的隐藏状态,并不涉及输出层计算。注意力机制将这些输出作为键项和值项。
class Encoder(nn.Module):
def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
drop_prob=0, **kwargs):
super(Encoder, self).__init__(**kwargs) # 调用父类的构造函数
self.embedding = nn.Embedding(vocab_size, embed_size) # 定义词嵌入层
self.rnn = nn.GRU(embed_size, num_hiddens, num_layers, dropout=drop_prob) # 定义GRU层
def forward(self, inputs, state):
# 输入形状是(批量大小, 时间步数)。将输出互换样本维和时间步维
embedding = self.embedding(inputs.long()).permute(1, 0, 2) # 将输入转换为词嵌入并交换维度为 (seq_len, batch, input_size)
return self.rnn(embedding, state) # 将嵌入输入到GRU层,并返回输出和隐藏状态
def begin_state(self):
return None # 初始化RNN的隐藏状态为None
创建一个批量大小为4、时间步数为7的小批量序列输入。设门控循环单元的隐藏层个数为2,隐藏单元个数为16。编码器对该输入执行前向计算后返回的输出形状为(时间步数, 批量大小, 隐藏单元个数)。门控循环单元在最终时间步的多层隐藏状态的形状为(隐藏层个数, 批量大小, 隐藏单元个数)。对于门控循环单元来说,state就是一个元素,即隐藏状态;如果使用长短期记忆,state是一个元组,包含两个元素即隐藏状态和记忆细胞。
# 创建Encoder实例,设置词汇表大小为10,嵌入维度为8,隐藏单元数为16,层数为2
encoder = Encoder(vocab_size=10, embed_size=8, num_hiddens=16, num_layers=2)
# 调用encoder的forward方法,输入是一个形状为(4, 7)的全零张量(模拟一个批次的输入),初始隐藏状态为None
output, state = encoder(torch.zeros((4, 7)), encoder.begin_state())
# 输出output和state的形状
output.shape, state.shape # GRU的state是隐藏状态h,LSTM的state是一个元组(h, c)
2.2.注意力机制
定义函数 𝑎 :将输入连结后通过含单隐藏层的多层感知机变换。其中隐藏层的输入是解码器的隐藏状态与编码器在所有时间步上隐藏状态的一一连结,且使用tanh函数作为激活函数。输出层的输出个数为1。两个Linear实例均不使用偏差。其中函数 𝑎 定义里向量 𝑣 的长度是一个超参数,即attention_size。
def attention_model(input_size, attention_size):
# 定义一个带有注意力机制的模型
model = nn.Sequential(
nn.Linear(input_size, attention_size, bias=False), # 输入层线性变换,输出维度为attention_size
nn.Tanh(), # 使用Tanh激活函数
nn.Linear(attention_size, 1, bias=False) # 再次线性变换,输出维度为1
)
return model # 返回定义的模型
注意力机制的输入包括查询项、键项和值项。设编码器和解码器的隐藏单元个数相同。这里的查询项为解码器在上一时间步的隐藏状态,形状为(批量大小, 隐藏单元个数);键项和值项均为编码器在所有时间步的隐藏状态,形状为(时间步数, 批量大小, 隐藏单元个数)。注意力机制返回当前时间步的背景变量,形状为(批量大小, 隐藏单元个数)。
def attention_forward(model, enc_states, dec_state):
"""
enc_states: (时间步数, 批量大小, 隐藏单元个数)
dec_state: (批量大小, 隐藏单元个数)
"""
# 将解码器隐藏状态广播到和编码器隐藏状态形状相同后进行连结
dec_states = dec_state.unsqueeze(dim=0).expand_as(enc_states) # (1, 批量大小, 隐藏单元个数) -> (时间步数, 批量大小, 隐藏单元个数)
enc_and_dec_states = torch.cat((enc_states, dec_states), dim=2) # 在隐藏单元维度上连接编码器和解码器的隐藏状态
e = model(enc_and_dec_states) # 通过注意力模型计算注意力得分,形状为(时间步数, 批量大小, 1)
alpha = F.softmax(e, dim=0) # 在时间步维度做softmax运算,计算注意力权重
return (alpha * enc_states).sum(dim=0) # 计算加权和,返回背景变量,形状为(批量大小, 隐藏单元个数)
在下面的例子中,编码器的时间步数为10,批量大小为4,编码器和解码器的隐藏单元个数均为8。注意力机制返回一个小批量的背景向量,每个背景向量的长度等于编码器的隐藏单元个数。因此输出的形状为(4, 8)。
seq_len, batch_size, num_hiddens = 10, 4, 8
model = attention_model(2*num_hiddens, 10) # 创建注意力模型,输入大小为2*num_hiddens,注意力大小为10
enc_states = torch.zeros((seq_len, batch_size, num_hiddens)) # 创建编码器隐藏状态,形状为(seq_len, batch_size, num_hiddens)
dec_state = torch.zeros((batch_size, num_hiddens)) # 创建解码器隐藏状态,形状为(batch_size, num_hiddens)
attention_forward(model, enc_states, dec_state).shape # 计算注意力前向传播,并打印输出的形状
验证正确
2.3.含注意力机制的解码器
我们直接将编码器在最终时间步的隐藏状态作为解码器的初始隐藏状态。这要求编码器和解码器的循环神经网络使用相同的隐藏层个数和隐藏单元个数。
在解码器的前向计算中,我们先通过刚刚介绍的注意力机制计算得到当前时间步的背景向量。由于解码器的输入来自输出语言的词索引,我们将输入通过词嵌入层得到表征,然后和背景向量在特征维连结。我们将连结后的结果与上一时间步的隐藏状态通过门控循环单元计算出当前时间步的输出与隐藏状态。最后,我们将输出通过全连接层变换为有关各个输出词的预测,形状为(批量大小, 输出词典大小)。
class Decoder(nn.Module):
def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
attention_size, drop_prob=0):
super(Decoder, self).__init__()
self.embedding = nn.Embedding(vocab_size, embed_size) # 定义词嵌入层
self.attention = attention_model(2*num_hiddens, attention_size) # 定义注意力模型
# GRU的输入包含attention输出的c和实际输入, 所以尺寸是 num_hiddens+embed_size
self.rnn = nn.GRU(num_hiddens + embed_size, num_hiddens,
num_layers, dropout=drop_prob) # 定义GRU层
self.out = nn.Linear(num_hiddens, vocab_size) # 定义线性层,输出大小为词汇表大小
def forward(self, cur_input, state, enc_states):
"""
cur_input shape: (batch, )
state shape: (num_layers, batch, num_hiddens)
"""
# 使用注意力机制计算背景向量
c = attention_forward(self.attention, enc_states, state[-1]) # 计算注意力背景向量c
# 将嵌入后的输入和背景向量在特征维度上连接,形状为(批量大小, num_hiddens+embed_size)
input_and_c = torch.cat((self.embedding(cur_input), c), dim=1)
# 为输入和背景向量的连接增加时间步维,时间步个数为1
output, state = self.rnn(input_and_c.unsqueeze(0), state)
# 移除时间步维,输出形状为(批量大小, 输出词典大小)
output = self.out(output).squeeze(dim=0)
return output, state
def begin_state(self, enc_state):
# 直接将编码器最终时间步的隐藏状态作为解码器的初始隐藏状态
return enc_state
!!!二级标题 训练模型
先实现batch_loss函数计算一个小批量的损失。解码器在最初时间步的输入是特殊字符BOS。之后,解码器在某时间步的输入为样本输出序列在上一时间步的词,即强制教学。
def batch_loss(encoder, decoder, X, Y, loss):
batch_size = X.shape[0] # 获取批量大小
enc_state = encoder.begin_state() # 获取编码器的初始隐藏状态
enc_outputs, enc_state = encoder(X, enc_state) # 编码器前向计算
# 初始化解码器的隐藏状态
dec_state = decoder.begin_state(enc_state)
# 解码器在最初时间步的输入是BOS
dec_input = torch.tensor([out_vocab.stoi[BOS]] * batch_size) # 将BOS转换为对应的索引
# 我们将使用掩码变量mask来忽略掉标签为填充项PAD的损失,初始全为1
mask, num_not_pad_tokens = torch.ones(batch_size,), 0
l = torch.tensor([0.0]) # 初始化损失为0
for y in Y.permute(1, 0): # 对Y进行转置,形状变为(batch, seq_len)
dec_output, dec_state = decoder(dec_input, dec_state, enc_outputs) # 解码器前向计算
l = l + (mask * loss(dec_output, y)).sum() # 累加损失,只考虑非填充项
dec_input = y # 使用强制教学,将当前输出作为下一步的输入
num_not_pad_tokens += mask.sum().item() # 计算非填充项的数量
# EOS后面全是PAD. 下面一行保证一旦遇到EOS接下来的循环中mask就一直是0
mask = mask * (y != out_vocab.stoi[EOS]).float() # 更新mask,遇到EOS后将mask置为0
return l / num_not_pad_tokens # 返回平均损失
在训练函数中,我们需要同时迭代编码器和解码器的模型参数。
def train(encoder, decoder, dataset, lr, batch_size, num_epochs):
enc_optimizer = torch.optim.Adam(encoder.parameters(), lr=lr) # 定义编码器的优化器
dec_optimizer = torch.optim.Adam(decoder.parameters(), lr=lr) # 定义解码器的优化器
loss = nn.CrossEntropyLoss(reduction='none') # 定义交叉熵损失函数,不进行平均
data_iter = Data.DataLoader(dataset, batch_size, shuffle=True) # 创建数据迭代器
for epoch in range(num_epochs):
l_sum = 0.0 # 初始化损失累加器
for X, Y in data_iter: # 遍历数据迭代器
enc_optimizer.zero_grad() # 清空编码器优化器梯度
dec_optimizer.zero_grad() # 清空解码器优化器梯度
l = batch_loss(encoder, decoder, X, Y, loss) # 计算当前批次的损失
l.backward() # 反向传播计算梯度
enc_optimizer.step() # 更新编码器参数
dec_optimizer.step() # 更新解码器参数
l_sum += l.item() # 累加损失值
if (epoch + 1) % 10 == 0:
print("epoch %d, loss %.3f" % (epoch + 1, l_sum / len(data_iter))) # 每10个epoch打印损失平均值
接下来,创建模型实例并设置超参数。然后,我们就可以训练模型了。
# 定义各种超参数
embed_size, num_hiddens, num_layers = 64, 64, 2
attention_size, drop_prob, lr, batch_size, num_epochs = 10, 0.5, 0.01, 2, 50
# 创建编码器实例,设置词汇表大小为输入词汇表的大小,嵌入维度为embed_size,隐藏单元数为num_hiddens,层数为num_layers,dropout概率为drop_prob
encoder = Encoder(len(in_vocab), embed_size, num_hiddens, num_layers, drop_prob)
# 创建解码器实例,设置词汇表大小为输出词汇表的大小,嵌入维度为embed_size,隐藏单元数为num_hiddens,层数为num_layers,注意力大小为attention_size,dropout概率为drop_prob
decoder = Decoder(len(out_vocab), embed_size, num_hiddens, num_layers, attention_size, drop_prob)
# 训练模型,使用Adam优化器,学习率为lr,批量大小为batch_size,总共训练num_epochs个epoch
train(encoder, decoder, dataset, lr, batch_size, num_epochs)
3.预测不定长的序列
使用贪婪搜索。
def translate(encoder, decoder, input_seq, max_seq_len):
# 将输入序列分割成单词列表,并在末尾添加EOS和PAD,直到长度为max_seq_len
in_tokens = input_seq.split(' ')
in_tokens += [EOS] + [PAD] * (max_seq_len - len(in_tokens) - 1)
# 将输入序列转换为对应的索引张量,batch大小为1
enc_input = torch.tensor([[in_vocab.stoi[tk] for tk in in_tokens]]) # batch=1
# 获取编码器的初始隐藏状态并进行编码器前向计算
enc_state = encoder.begin_state()
enc_output, enc_state = encoder(enc_input, enc_state)
# 解码器初始输入为BOS对应的索引
dec_input = torch.tensor([out_vocab.stoi[BOS]])
# 获取解码器的初始隐藏状态,使用编码器的最终隐藏状态
dec_state = decoder.begin_state(enc_state)
output_tokens = [] # 初始化输出序列的单词列表
for _ in range(max_seq_len):
# 解码器前向计算,获取解码输出和新的解码器隐藏状态
dec_output, dec_state = decoder(dec_input, dec_state, enc_output)
# 获取预测的单词索引
pred = dec_output.argmax(dim=1)
# 将预测的单词索引转换为对应的单词
pred_token = out_vocab.itos[int(pred.item())]
if pred_token == EOS: # 如果预测到EOS,则停止解码
break
else:
output_tokens.append(pred_token) # 将预测的单词添加到输出序列中
dec_input = pred # 更新解码器输入为当前预测的单词的索引
return output_tokens # 返回解码得到的输出序列的单词列表
简单测试一下模型。输入法语句子“ils regardent.”,翻译后的英语句子应该是“they are watching.”。
input_seq = 'ils regardent .' # 定义输入的源语言序列
translate(encoder, decoder, input_seq, max_seq_len) # 调用translate函数进行翻译
4.评价翻译结果
评价机器翻译结果通常使用BLEU(Bilingual Evaluation Understudy)[1]。对于模型预测序列中任意的子序列,BLEU考察这个子序列是否出现在标签序列中。
具体来说,设词数为 𝑛的子序列的精度为 𝑝𝑛 。它是预测序列与标签序列匹配词数为 𝑛 的子序列的数量与预测序列中词数为 𝑛 的子序列的数量之比。举个例子,假设标签序列为 𝐴、 𝐵、 𝐶、 𝐷、 𝐸 、 𝐹,预测序列为 𝐴 、𝐵、 𝐵、 𝐶 、 𝐷 ,那么𝑝1=4/5,𝑝2=3/4,𝑝3=1/3,𝑝4=0
。设 𝑙𝑒𝑛label 和 𝑙𝑒𝑛pred 分别为标签序列和预测序列的词数,那么,BLEU的定义为
其中 𝑘是我们希望匹配的子序列的最大词数。可以看到当预测序列和标签序列完全一致时,BLEU为1。
因为匹配较长子序列比匹配较短子序列更难,BLEU对匹配较长子序列的精度赋予了更大权重。例如,当 𝑝𝑛固定在0.5时,随着 𝑛的增大,0.51/2≈0.7,0.51/4≈0.84,0.51/8≈0.92,0.51/16≈0.96 。另外,模型预测较短序列往往会得到较高 𝑝𝑛
值。因此,上式中连乘项前面的系数是为了惩罚较短的输出而设的。举个例子,当 𝑘=2时,假设标签序列为 𝐴、 𝐵 、 𝐶 、 𝐷、 𝐸 、 𝐹,而预测序列为 𝐴、 𝐵。虽然 𝑝1=𝑝2=1,但惩罚系数 exp(1−6/2)≈0.14,因此BLEU也接近0.14。
下面来实现BLEU的计算。
def bleu(pred_tokens, label_tokens, k):
len_pred, len_label = len(pred_tokens), len(label_tokens)
score = math.exp(min(0, 1 - len_label / len_pred)) # 计算长度惩罚
for n in range(1, k + 1):
num_matches, label_subs = 0, collections.defaultdict(int)
# 计算预测序列和参考序列的n-gram匹配数
for i in range(len_label - n + 1):
label_subs[''.join(label_tokens[i: i + n])] += 1
for i in range(len_pred - n + 1):
if label_subs[''.join(pred_tokens[i: i + n])] > 0:
num_matches += 1
label_subs[''.join(pred_tokens[i: i + n])] -= 1
# 计算n-gram精确度,并乘以对应的权重
score *= math.pow(num_matches / (len_pred - n + 1), math.pow(0.5, n))
return score
def score(input_seq, label_seq, k):
pred_tokens = translate(encoder, decoder, input_seq, max_seq_len) # 使用翻译函数得到预测的目标语言单词序列
label_tokens = label_seq.split(' ') # 将参考的目标语言序列拆分成单词列表
# 输出BLEU分数和预测的目标语言单词序列
print('bleu %.3f, predict: %s' % (bleu(pred_tokens, label_tokens, k),
' '.join(pred_tokens)))
预测正确则分数为1。
score('ils regardent .', 'they are watching .', k=2)#评估了机器翻译系统对于输入序列 'ils regardent .' 的翻译质量。