1 什么是机器翻译
机器翻译是指利用计算机技术和语言学知识来实现将一种自然语言的文本翻译成另一种自然语言的文本的过程。这种技术旨在使计算机能够理解和翻译人类语言,从而帮助人们跨越语言障碍进行沟通和交流。
机器翻译系统通常依赖于大量的语料库和复杂的算法,其中包括统计机器翻译(SMT)和神经机器翻译(NMT)等不同的方法。近年来,随着深度学习技术的发展,神经机器翻译在NLP领域中变得越来越流行,因为它能够更好地捕捉句子结构和语义信息,从而提高翻译的准确性和流畅度。
总的来说,机器翻译在NLP领域中扮演着重要的角色,它帮助人们跨越语言障碍,促进不同语言和文化之间的交流与理解。
2 理论基础
2.1 编码器—解码器
在自然语言处理的很多应用中,输入和输出都可以是不定长序列。机器翻译正是如此,输入可以是一段不定长的英语文本序列,输出可以是一段不定长的法语文本序列,例如:
英语输入:“They”、“are”、“watching”、“.”
法语输出:“Ils”、“regardent”、“.”
当输入和输出都是不定长序列时,我们可以使用编码器—解码器(encoder-decoder)或者seq2seq模型 。这两个模型本质上都用到了两个循环神经网络,分别叫做编码器和解码器。编码器用来分析输入序列,解码器用来生成输出序列。
2.1.1 编码器
编码器的作用是把一个不定长的输入序列变换成一个定长的背景变量𝑐,并在该背景变量中编码输入序列信息。常用的编码器是循环神经网络。
让我们考虑批量大小为1的时序数据样本。假设输入序列是𝑥1,…,𝑥𝑇,例如𝑥𝑖是输入句子中的第𝑖个词。在时间步𝑡,循环神经网络将输入𝑥𝑡的特征向量𝑥𝑡和上个时间步的隐藏状态ℎ𝑡−1变换为当前时间步的隐藏状态ℎ𝑡。我们可以用函数𝑓表达循环神经网络隐藏层的变换:
ℎ𝑡=𝑓(𝑥𝑡,ℎ𝑡−1).
接下来,编码器通过自定义函数𝑞将各个时间步的隐藏状态变换为背景变量
𝑐=𝑞(ℎ1,…,ℎ𝑇).
例如,当选择𝑞(ℎ1,…,ℎ𝑇)=ℎ𝑇时,背景变量是输入序列最终时间步的隐藏状态ℎ𝑇。
以上描述的编码器是一个单向的循环神经网络,每个时间步的隐藏状态只取决于该时间步及之前的输入子序列。我们也可以使用双向循环神经网络构造编码器。在这种情况下,编码器每个时间步的隐藏状态同时取决于该时间步之前和之后的子序列(包括当前时间步的输入),并编码了整个序列的信息。
2.1.2 解码器
刚刚已经介绍,编码器输出的背景变量𝑐编码了整个输入序列𝑥1,…,𝑥𝑇的信息。给定训练样本中的输出序列𝑦1,𝑦2,…,𝑦𝑇′,对每个时间步𝑡′(符号与输入序列或编码器的时间步𝑡有区别),解码器输出𝑦𝑡′的条件概率将基于之前的输出序列𝑦1,…,𝑦𝑡′−1和背景变量𝑐,即𝑃(𝑦𝑡′∣𝑦1,…,𝑦𝑡′−1,𝑐)。
为此,我们可以使用另一个循环神经网络作为解码器。在输出序列的时间步𝑡′,解码器将上一时间步的输出𝑦𝑡′−1以及背景变量𝑐作为输入,并将它们与上一时间步的隐藏状态𝑠𝑡′−1变换为当前时间步的隐藏状态𝑠𝑡′。因此,我们可以用函数𝑔表达解码器隐藏层的变换:
𝑠𝑡′=𝑔(𝑦𝑡′−1,𝑐,𝑠𝑡′−1).
有了解码器的隐藏状态后,我们可以使用自定义的输出层和softmax运算来计算𝑃(𝑦𝑡′∣𝑦1,…,𝑦𝑡′−1,𝑐),例如,基于当前时间步的解码器隐藏状态 𝑠𝑡′、上一时间步的输出𝑦𝑡′−1以及背景变量𝑐来计算当前时间步输出𝑦𝑡′的概率分布。
2.2 注意力机制
注意力机制是一种在深度学习领域中被广泛使用的技术,用于处理序列数据(如自然语言文本或时间序列数据)。它的主要作用是使模型能够在处理输入序列时聚焦于其中的特定部分,从而提高模型在处理长序列时的性能。
在自然语言处理中,注意力机制使得模型能够在翻译、摘要生成和问答等任务中更好地理解和利用输入文本中的关键信息。通过注意力机制,模型可以学会对输入序列中的不同部分分配不同的权重,从而在处理序列时更加灵活和准确。
注意力机制的核心思想是,当模型处理序列数据时,它可以动态地决定在每个时间步应该关注输入序列的哪些部分,而不是一味地平均对待整个序列。这种动态的关注机制使得模型能够更好地应对长序列和复杂序列数据的处理。
在编码器—解码器里我们区分了输入序列或编码器的索引𝑡与输出序列或解码器的索引𝑡′。解码器在时间步𝑡′的隐藏状态𝑠𝑡′=𝑔(𝑦𝑡′−1,𝑐,𝑠𝑡′−1),其中𝑦𝑡′−1是上一时间步𝑡′−1的输出𝑦𝑡′−1的表征,且任一时间步𝑡′使用相同的背景变量𝑐。但在注意力机制中,解码器的每一时间步将使用可变的背景变量。记𝑐𝑡′是解码器在时间步𝑡′的背景变量,那么解码器在该时间步的隐藏状态可以改写为
𝑠𝑡′=𝑔(𝑦𝑡′−1,𝑐𝑡′,𝑠𝑡′−1).
本质上,注意力机制能够为表征中较有价值的部分分配较多的计算资源。这个有趣的想法自提出后得到了快速发展,特别是启发了依靠注意力机制来编码输入序列并解码出输出序列的变换器(Transformer)模型的设计 。变换器抛弃了卷积神经网络和循环神经网络的架构。它在计算效率上比基于循环神经网络的编码器—解码器模型通常更具明显优势。含注意力机制的变换器的编码结构在后来的BERT预训练模型中得以应用并令后者大放异彩:微调后的模型在多达11项自然语言处理任务中取得了当时最先进的结果 。不久后,同样是基于变换器设计的GPT-2模型于新收集的语料数据集预训练后,在7个未参与训练的语言模型数据集上均取得了当时最先进的结果 。除了自然语言处理领域,注意力机制还被广泛用于图像分类、自动图像描述、唇语解读以及语音识别。
2.3 Transformer
Transformer是一种基于注意力机制的深度学习模型,用于处理序列数据,特别是在自然语言处理领域中取得了巨大成功。它在2017年由Vaswani等人提出,并在机器翻译任务中取得了显著的性能提升。
核心思想是摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),而是完全基于自注意力机制(self-attention)来处理输入序列。自注意力机制允许模型在处理序列时动态地计算不同位置之间的依赖关系,从而更好地捕捉序列中的长距离依赖关系。
Transformer模型由编码器(encoder)和解码器(decoder)组成,适用于序列到序列的任务,如机器翻译。编码器负责将输入序列编码成一个高维表示,而解码器则根据编码器的输出和先前的目标序列来生成最终的输出序列。
图1 Transformer整体结构
它的优势在于其并行计算能力强,能够更好地处理长序列数据,并且不受序列长度影响的能力更强。这使得Transformer模型在自然语言处理领域中成为了一种重要的基础模型,被广泛应用于机器翻译、文本生成、问答系统等任务中,并且在各种NLP基准数据集上取得了令人瞩目的性能。
3 设计思路
3.1 使用机器翻译实现英译法
3.1.1 读取和预处理数据
我们先定义一些特殊符号。其中“<pad>”(padding)符号用来添加在较短序列后,直到每个序列等长,而“<bos>”和“<eos>”符号分别表示序列的开始和结束。
!tar -xf d2lzh_pytorch.tar #载入模型
import collections
import os
import io
import math
import torch
from torch import nn
import torch.nn.functional as F
import torchtext.vocab as Vocab
import torch.utils.data as Data
import sys
# sys.path.append("..")
import d2lzh_pytorch as d2l # 载入模型
PAD, BOS, EOS = '<pad>', '<bos>', '<eos>' # 定义特殊符号
os.environ["CUDA_VISIBLE_DEVICES"] = "0" # 设置使用的GPU设备
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') # 检查是否有可用的GPU
print(torch.__version__, device) # 打印PyTorch的版本号和设备类型
接着定义两个辅助函数对后面读取的数据进行预处理。
# 将一个序列中所有的词记录在all_tokens中以便之后构造词典,然后在该序列后面添加PAD直到序列
# 长度变为max_seq_len,然后将序列保存在all_seqs中
def process_one_seq(seq_tokens, all_tokens, all_seqs, max_seq_len):
all_tokens.extend(seq_tokens)
seq_tokens += [EOS] + [PAD] * (max_seq_len - len(seq_tokens) - 1)
all_seqs.append(seq_tokens)
# 使用所有的词来构造词典。并将所有序列中的词变换为词索引后构造Tensor
def build_data(all_tokens, all_seqs):
vocab = Vocab.Vocab(collections.Counter(all_tokens),
specials=[PAD, BOS, EOS])
indices = [[vocab.stoi[w] for w in seq] for seq in all_seqs]
return vocab, torch.tensor(indices)
为了演示方便,我们在这里使用一个很小的法语—英语数据集。在这个数据集里,每一行是一对法语句子和它对应的英语句子,中间使用'\t'
隔开。在读取数据时,我们在句末附上“<eos>”符号,并可能通过添加“<pad>”符号使每个序列的长度均为max_seq_len
。我们为法语词和英语词分别创建词典。法语词的索引和英语词的索引相互独立。
def read_data(max_seq_len):
# in和out分别是input和output的缩写
in_tokens, out_tokens, in_seqs, out_seqs = [], [], [], []
with io.open('fr-en-small.txt') as f:
lines = f.readlines()
for line in lines:
in_seq, out_seq = line.rstrip().split('\t')
in_seq_tokens, out_seq_tokens = in_seq.split(' '), out_seq.split(' ')
if max(len(in_seq_tokens), len(out_seq_tokens)) > max_seq_len - 1:
continue # 如果加上EOS后长于max_seq_len,则忽略掉此样本
process_one_seq(in_seq_tokens, in_tokens, in_seqs, max_seq_len)
process_one_seq(out_seq_tokens, out_tokens, out_seqs, max_seq_len)
in_vocab, in_data = build_data(in_tokens, in_seqs)
out_vocab, out_data = build_data(out_tokens, out_seqs)
return in_vocab, out_vocab, Data.TensorDataset(in_data, out_data)
将序列的最大长度设成7,然后查看读取到的第一个样本。该样本分别包含法语词索引序列和英语词索引序列。
max_seq_len = 7 # 设置最大长度为7
# 读取数据集,获取输入输出词汇表和数据集
in_vocab, out_vocab, dataset = read_data(max_seq_len)
dataset[0] # 查看数据集中的第一个样本,包含输入序列和输出序列
3.1.2 含注意力机制的编码器—解码器
我们将使用含注意力机制的编码器—解码器来将一段简短的法语翻译成英语。
3.1.2.1 编码器
在编码器中,我们将输入语言的词索引通过词嵌入层得到词的表征,然后输入到一个多层门控循环单元中。正如我们在6.5节(循环神经网络的简洁实现)中提到的,PyTorch的nn.GRU
实例在前向计算后也会分别返回输出和最终时间步的多层隐藏状态。其中的输出指的是最后一层的隐藏层在各个时间步的隐藏状态,并不涉及输出层计算。注意力机制将这些输出作为键项和值项。
class Encoder(nn.Module):
def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
drop_prob=0, **kwargs):
super(Encoder, self).__init__(**kwargs)
self.embedding = nn.Embedding(vocab_size, embed_size) # 定义词嵌入层
self.rnn = nn.GRU(embed_size, num_hiddens, num_layers, dropout=drop_prob) # 定义GRU层
def forward(self, inputs, state):
# 输入形状是(批量大小, 时间步数)。将输出互换样本维和时间步维
embedding = self.embedding(inputs.long()).permute(1, 0, 2) # 对输入进行词嵌入,并将维度互换
return self.rnn(embedding, state) # 将词嵌入后的输入和初始状态传入GRU层进行计算
def begin_state(self):
return None
下面我们来创建一个批量大小为4、时间步数为7的小批量序列输入。设门控循环单元的隐藏层个数为2,隐藏单元个数为16。编码器对该输入执行前向计算后返回的输出形状为(时间步数, 批量大小, 隐藏单元个数)。门控循环单元在最终时间步的多层隐藏状态的形状为(隐藏层个数, 批量大小, 隐藏单元个数)。对于门控循环单元来说,state
就是一个元素,即隐藏状态;如果使用长短期记忆,state
是一个元组,包含两个元素即隐藏状态和记忆细胞。
encoder = Encoder(vocab_size=10, embed_size=8, num_hiddens=16, num_layers=2)
output, state = encoder(torch.zeros((4, 7)), encoder.begin_state())
output.shape, state.shape # GRU的state是h, 而LSTM的是一个元组(h, c)
3.1.2.2 注意力机制
我们将实现2.2(注意力机制)中定义的函数𝑎:将输入连结后通过含单隐藏层的多层感知机变换。其中隐藏层的输入是解码器的隐藏状态与编码器在所有时间步上隐藏状态的一一连结,且使用tanh函数作为激活函数。输出层的输出个数为1。两个Linear
实例均不使用偏差。其中函数𝑎定义里向量𝑣的长度是一个超参数,即attention_size
。
def attention_model(input_size, attention_size):
# 定义注意力模型
model = nn.Sequential(
nn.Linear(input_size, attention_size, bias=False), # 线性变换
nn.Tanh(), # Tanh激活函数
nn.Linear(attention_size, 1, bias=False) # 线性变换
)
return model
注意力机制的输入包括查询项、键项和值项。设编码器和解码器的隐藏单元个数相同。这里的查询项为解码器在上一时间步的隐藏状态,形状为(批量大小, 隐藏单元个数);键项和值项均为编码器在所有时间步的隐藏状态,形状为(时间步数, 批量大小, 隐藏单元个数)。注意力机制返回当前时间步的背景变量,形状为(批量大小, 隐藏单元个数)。
def attention_forward(model, enc_states, dec_state):
"""
enc_states: (时间步数, 批量大小, 隐藏单元个数)
dec_state: (批量大小, 隐藏单元个数)
"""
# 将解码器隐藏状态广播到和编码器隐藏状态形状相同后进行连结
dec_states = dec_state.unsqueeze(dim=0).expand_as(enc_states)
enc_and_dec_states = torch.cat((enc_states, dec_states), dim=2)
e = model(enc_and_dec_states) # 形状为(时间步数, 批量大小, 1)
alpha = F.softmax(e, dim=0) # 在时间步维度做softmax运算
return (alpha * enc_states).sum(dim=0) # 返回背景变量
在下面的例子中,编码器的时间步数为10,批量大小为4,编码器和解码器的隐藏单元个数均为8。注意力机制返回一个小批量的背景向量,每个背景向量的长度等于编码器的隐藏单元个数。因此输出的形状为(4, 8)。
seq_len, batch_size, num_hiddens = 10, 4, 8
model = attention_model(2*num_hiddens, 10) # 创建注意力模型
enc_states = torch.zeros((seq_len, batch_size, num_hiddens)) # 编码器状态
dec_state = torch.zeros((batch_size, num_hiddens)) # 解码器状态
attention_forward(model, enc_states, dec_state).shape # 执行注意力前向传播并输出形状
3.1.2.3 含注意力机制的解码器
我们直接将编码器在最终时间步的隐藏状态作为解码器的初始隐藏状态。这要求编码器和解码器的循环神经网络使用相同的隐藏层个数和隐藏单元个数。
在解码器的前向计算中,我们先通过刚刚介绍的注意力机制计算得到当前时间步的背景向量。由于解码器的输入来自输出语言的词索引,我们将输入通过词嵌入层得到表征,然后和背景向量在特征维连结。我们将连结后的结果与上一时间步的隐藏状态通过门控循环单元计算出当前时间步的输出与隐藏状态。最后,我们将输出通过全连接层变换为有关各个输出词的预测,形状为(批量大小, 输出词典大小)。
class Decoder(nn.Module):
def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
attention_size, drop_prob=0):
super(Decoder, self).__init__()
self.embedding = nn.Embedding(vocab_size, embed_size)
self.attention = attention_model(2*num_hiddens, attention_size)
# GRU的输入包含attention输出的c和实际输入, 所以尺寸是 num_hiddens+embed_size
self.rnn = nn.GRU(num_hiddens + embed_size, num_hiddens,
num_layers, dropout=drop_prob)
self.out = nn.Linear(num_hiddens, vocab_size)
def forward(self, cur_input, state, enc_states):
"""
cur_input shape: (batch, )
state shape: (num_layers, batch, num_hiddens)
"""
# 使用注意力机制计算背景向量
c = attention_forward(self.attention, enc_states, state[-1])
# 将嵌入后的输入和背景向量在特征维连结, (批量大小, num_hiddens+embed_size)
input_and_c = torch.cat((self.embedding(cur_input), c), dim=1)
# 为输入和背景向量的连结增加时间步维,时间步个数为1
output, state = self.rnn(input_and_c.unsqueeze(0), state)
# 移除时间步维,输出形状为(批量大小, 输出词典大小)
output = self.out(output).squeeze(dim=0)
return output, state
def begin_state(self, enc_state):
# 直接将编码器最终时间步的隐藏状态作为解码器的初始隐藏状态
return enc_state
3.1.3 训练模型
我们先实现batch_loss
函数计算一个小批量的损失。解码器在最初时间步的输入是特殊字符BOS
。之后,解码器在某时间步的输入为样本输出序列在上一时间步的词,即强制教学。此外,我们在这里使用掩码变量避免填充项对损失函数计算的影响。
def batch_loss(encoder, decoder, X, Y, loss):
batch_size = X.shape[0]
enc_state = encoder.begin_state()
enc_outputs, enc_state = encoder(X, enc_state)
# 初始化解码器的隐藏状态
dec_state = decoder.begin_state(enc_state)
# 解码器在最初时间步的输入是BOS
dec_input = torch.tensor([out_vocab.stoi[BOS]] * batch_size)
# 我们将使用掩码变量mask来忽略掉标签为填充项PAD的损失, 初始全1
mask, num_not_pad_tokens = torch.ones(batch_size,), 0
l = torch.tensor([0.0])
for y in Y.permute(1,0): # Y shape: (batch, seq_len)
dec_output, dec_state = decoder(dec_input, dec_state, enc_outputs)
l = l + (mask * loss(dec_output, y)).sum()
dec_input = y # 使用强制教学
num_not_pad_tokens += mask.sum().item()
# EOS后面全是PAD. 下面一行保证一旦遇到EOS接下来的循环中mask就一直是0
mask = mask * (y != out_vocab.stoi[EOS]).float()
return l / num_not_pad_tokens
在训练函数中,我们需要同时迭代编码器和解码器的模型参数。
def train(encoder, decoder, dataset, lr, batch_size, num_epochs):
# 定义优化器
enc_optimizer = torch.optim.Adam(encoder.parameters(), lr=lr)
dec_optimizer = torch.optim.Adam(decoder.parameters(), lr=lr)
# 定义损失函数
loss = nn.CrossEntropyLoss(reduction='none')
# 创建数据迭代器
data_iter = Data.DataLoader(dataset, batch_size, shuffle=True)
# 迭代训练
for epoch in range(num_epochs):
l_sum = 0.0
for X, Y in data_iter:
# 梯度清零
enc_optimizer.zero_grad()
dec_optimizer.zero_grad()
# 计算批量损失
l = batch_loss(encoder, decoder, X, Y, loss)
# 反向传播和优化
l.backward()
enc_optimizer.step()
dec_optimizer.step()
l_sum += l.item()
if (epoch + 1) % 10 == 0:
print("epoch %d, loss %.3f" % (epoch + 1, l_sum / len(data_iter)))
接下来,创建模型实例并设置超参数。然后,我们就可以训练模型了。
embed_size, num_hiddens, num_layers = 64, 64, 2
attention_size, drop_prob, lr, batch_size, num_epochs = 10, 0.5, 0.01, 2, 50
# 创建编码器和解码器
encoder = Encoder(len(in_vocab), embed_size, num_hiddens, num_layers, drop_prob)
decoder = Decoder(len(out_vocab), embed_size, num_hiddens, num_layers, attention_size, drop_prob)
# 训练模型
train(encoder, decoder, dataset, lr, batch_size, num_epochs)
3.1.4 预测不定长的序列
这里我们使用贪婪搜索来生成解码器在每个时间步的输出。
def translate(encoder, decoder, input_seq, max_seq_len):
# 将输入序列转换为token
in_tokens = input_seq.split(' ')
in_tokens += [EOS] + [PAD] * (max_seq_len - len(in_tokens) - 1)
enc_input = torch.tensor([[in_vocab.stoi[tk] for tk in in_tokens]]) # batch=1
# 编码器的初始状态
enc_state = encoder.begin_state()
# 编码器的前向计算
enc_output, enc_state = encoder(enc_input, enc_state)
# 解码器的初始输入
dec_input = torch.tensor([out_vocab.stoi[BOS]])
# 解码器的初始状态
dec_state = decoder.begin_state(enc_state)
# 存储输出的token
output_tokens = []
# 解码过程
for _ in range(max_seq_len):
# 解码器的前向计算
dec_output, dec_state = decoder(dec_input, dec_state, enc_output)
# 预测下一个token
pred = dec_output.argmax(dim=1)
pred_token = out_vocab.itos[int(pred.item())]
# 如果预测的token是EOS,则停止解码
if pred_token == EOS:
break
else:
output_tokens.append(pred_token)
dec_input = pred
return output_tokens
简单测试一下模型。输入法语句子“ils regardent.”,翻译后的英语句子应该是“they are watching.”。
input_seq = 'ils regardent .'
translate(encoder, decoder, input_seq, max_seq_len)
3.1.5 评价翻译结果
评价机器翻译结果通常使用BLEU(Bilingual Evaluation Understudy)。对于模型预测序列中任意的子序列,BLEU考察这个子序列是否出现在标签序列中。
具体来说,设词数为𝑛的子序列的精度为𝑝𝑛。它是预测序列与标签序列匹配词数为𝑛的子序列的数量与预测序列中词数为𝑛的子序列的数量之比。举个例子,假设标签序列为𝐴、𝐵、𝐶、𝐷、𝐸、𝐹,预测序列为𝐴、𝐵、𝐵、𝐶、𝐷,那么𝑝1=4/5,𝑝2=3/4,𝑝3=1/3,𝑝4=0。设𝑙𝑒𝑛label���label和𝑙𝑒𝑛pred分别为标签序列和预测序列的词数,那么,BLEU的定义为
其中𝑘是我们希望匹配的子序列的最大词数。可以看到当预测序列和标签序列完全一致时,BLEU为1。
因为匹配较长子序列比匹配较短子序列更难,BLEU对匹配较长子序列的精度赋予了更大权重。例如,当𝑝𝑛固定在0.5时,随着𝑛的增大,0.51/2≈0.7,0.51/4≈0.84,0.51/8≈0.92,0.51/16≈0.960.51/2≈0.7,0.51/4≈0.84,0.51/8≈0.92,0.51/16≈0.96。另外,模型预测较短序列往往会得到较高𝑝𝑛值。因此,上式中连乘项前面的系数是为了惩罚较短的输出而设的。举个例子,当𝑘=2时,假设标签序列为𝐴、𝐵、𝐶、𝐷、𝐸、𝐹,而预测序列为𝐴、𝐵。虽然𝑝1=𝑝2=1,但惩罚系数exp(1−6/2)≈0.14exp(1−6/2)≈0.14,因此BLEU也接近0.14。下面来实现BLEU的计算。
def bleu(pred_tokens, label_tokens, k):
len_pred, len_label = len(pred_tokens), len(label_tokens)
# 计算长度惩罚
score = math.exp(min(0, 1 - len_label / len_pred))
# 计算n-gram匹配
for n in range(1, k + 1):
num_matches, label_subs = 0, collections.defaultdict(int)
# 统计参考句子中n-gram的出现次数
for i in range(len_label - n + 1):
label_subs[''.join(label_tokens[i: i + n])] += 1
# 统计预测句子中与参考句子匹配的n-gram数量
for i in range(len_pred - n + 1):
if label_subs[''.join(pred_tokens[i: i + n])] > 0:
num_matches += 1
label_subs[''.join(pred_tokens[i: i + n])] -= 1
# 计算n-gram精确度
score *= math.pow(num_matches / (len_pred - n + 1), math.pow(0.5, n))
接下来,定义一个辅助打印函数。
def score(input_seq, label_seq, k):
pred_tokens = translate(encoder, decoder, input_seq, max_seq_len)
label_tokens = label_seq.split(' ')
print('bleu %.3f, predict: %s' % (bleu(pred_tokens, label_tokens, k),
' '.join(pred_tokens)))
预测正确则分数为1。
score('ils regardent .', 'they are watching .', k=2)
score('ils sont canadienne .', 'they are canadian .', k=2)
3.2 基于Transformer实现日翻汉
为了构建一个日语到中文的机器翻译模型,我们可以使用Transformer模型和PyTorch深度学习框架。
3.2.1 导入所需的包
import math # 导入数学库
import torchtext # 导入torchtext库,用于文本处理
import torch # 导入PyTorch库
import torch.nn as nn # 导入神经网络模块
from torch import Tensor # 导入张量类型
from torch.nn.utils.rnn import pad_sequence # 导入用于填充序列的函数
from torch.utils.data import DataLoader # 导入数据加载器
from collections import Counter # 导入计数器
from torchtext.vocab import Vocab # 导入词汇表
from torch.nn import TransformerEncoder, TransformerDecoder, TransformerEncoderLayer, TransformerDecoderLayer # 导入Transformer模型相关的类
import io # 导入输入输出库
import time # 导入时间库
import pandas as pd # 导入pandas库,用于数据处理
import numpy as np # 导入numpy库
import pickle # 导入pickle库,用于序列化和反序列化Python对象
import tqdm # 导入tqdm库,用于显示进度条
import sentencepiece as spm # 导入sentencepiece库,用于文本处理
torch.manual_seed(0) # 设置随机种子
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') # 检测并设置使用的设备
print(torch.cuda.get_device_name(0)) # 打印设备名称
3.1.2 获取平行数据集
我们将使用从JParaCrawl[http://www.kecl.ntt.co.jp/icl/lirg/jparacrawl]
下载英语-日语平行数据集。
df = pd.read_csv('./zh-ja/zh-ja.bicleaner05.txt', sep='\\t', engine='python', header=None)
trainen = df[2].values.tolist()#[:10000]
trainja = df[3].values.tolist()#[:10000]
# trainen.pop(5972)
# trainja.pop(5972)
在导入所有的日语及其英文对应文本后,我删除了数据集中的最后一条数据,因为它有一个缺失值。总共,在trainen和trainja中的句子数量为5,973,071。然而,出于学习目的,通常建议对数据进行抽样,并确保一切按预期运行,然后再一次性使用所有数据,以节省时间。
我们也可以使用不同的平行数据集来跟随本文,只需确保我们可以将数据处理成上述所示的两个字符串列表,其中包含日语和英语句子。
3.2.3 准备分词器
与英语或其他字母语言不同,日语句子中不包含空格来分隔单词。我们可以使用由 SentencePiece 创建的 JParaCrawl 提供的分词器,用于日语和英语。您可以访问 JParaCrawl 网站下载它们。
en_tokenizer = spm.SentencePieceProcessor(model_file='enja_spm_models/spm.en.nopretok.model') # 创建英文句子分词器,加载英文的SentencePiece模型
ja_tokenizer = spm.SentencePieceProcessor(model_file='enja_spm_models/spm.ja.nopretok.model') # 创建日文句子分词器,加载日文的SentencePiece模型
当加载了分词器之后,可以通过执行以下代码来测试它们。
en_tokenizer.encode("All residents aged 20 to 59 years who live in Japan must enroll in public pension system.", out_type='str') # 使用英文句子分词器对输入的英文句子进行编码处理,将结果以字符串形式输出
ja_tokenizer.encode("年金 日本に住んでいる20歳~60歳の全ての人は、公的年金制度に加入しなければなりません。", out_type='str') # 使用日语句子分词器对输入的日语句子进行编码处理,将结果以字符串形式输出
3.2.4 构建TorchText的词汇对象并将句子转换为Torch张量
使用标记器和原始句子,然后构建从TorchText导入的词汇对象。这个过程可能需要几秒或几分钟,取决于我们的数据集大小和计算能力。不同的标记器也会影响构建词汇所需的时间,我尝试了几种其他日语标记器,SentencePiece 运行得很好,速度也足够快。
def build_vocab(sentences, tokenizer):
counter = Counter() # 创建一个计数器对象
for sentence in sentences: # 遍历输入的句子列表
counter.update(tokenizer.encode(sentence, out_type=str)) # 使用指定的分词器对句子进行编码处理,并更新计数器对象
return Vocab(counter, specials=['<unk>', '<pad>', '<bos>', '<eos>']) # 根据计数器对象构建词汇表,包括特殊标记'<unk>', '<pad>', '<bos>', '<eos>'
ja_vocab = build_vocab(trainja, ja_tokenizer) # 使用日语分词器构建日语词汇表
en_vocab = build_vocab(trainen, en_tokenizer) # 使用英语分词器构建汉语词汇表
在我们有了词汇对象之后,我们可以使用词汇表和标记器对象来构建训练数据的张量。
def data_process(ja, en):
data = [] # 创建一个空列表用于存储处理后的数据
for (raw_ja, raw_en) in zip(ja, en): # 遍历日语和汉语句子列表,使用zip函数将对应位置的句子组合在一起
ja_tensor_ = torch.tensor([ja_vocab[token] for token in ja_tokenizer.encode(raw_ja.rstrip("\n"), out_type=str)],
dtype=torch.long) # 使用日语分词器对日语句子进行编码处理,并将结果转换为整数Tensor
en_tensor_ = torch.tensor([en_vocab[token] for token in en_tokenizer.encode(raw_en.rstrip("\n"), out_type=str)],
dtype=torch.long) # 使用英语词器对英语句子进行编码处理,并将结果转换为整数Tensor
data.append((ja_tensor_, en_tensor_)) # 将处理后的日语和英语句子以元组形式添加到data列表中
return data # 返回处理后的数据列表
train_data = data_process(trainja, trainen) # 对训练数据进行处理,得到处理后的数据列表
3.2.5 创建DataLoader对象,以便在训练过程中进行迭代。
这里,我将BATCH_SIZE设置为16以防止“cuda内存不足”的问题,但这取决于各种因素,如您的机器内存容量、数据大小等,因此可以根据需要自由更改批处理大小(注意:PyTorch的教程使用Multi30k德语-英语数据集将批处理大小设置为128)。
BATCH_SIZE = 8 # 定义批次大小
PAD_IDX = ja_vocab['<pad>'] # 获取填充标记的索引
BOS_IDX = ja_vocab['<bos>'] # 获取起始标记的索引
EOS_IDX = ja_vocab['<eos>'] # 获取结束标记的索引
def generate_batch(data_batch):
ja_batch, en_batch = [], [] # 创建空列表用于存储批次数据
for (ja_item, en_item) in data_batch: # 遍历批次数据
ja_batch.append(torch.cat([torch.tensor([BOS_IDX]), ja_item, torch.tensor([EOS_IDX])], dim=0)) # 在日语句子的开头和结尾添加起始和结束标记,并将结果添加到日语批次列表中
en_batch.append(torch.cat([torch.tensor([BOS_IDX]), en_item, torch.tensor([EOS_IDX])], dim=0)) # 在英语句子的开头和结尾添加起始和结束标记,并将结果添加到英语批次列表中
ja_batch = pad_sequence(ja_batch, padding_value=PAD_IDX) # 对日语批次进行填充,使得批次中的句子长度一致
en_batch = pad_sequence(en_batch, padding_value=PAD_IDX) # 对英语批次进行填充,使得批次中的句子长度一致
return ja_batch, en_batch # 返回处理后的日语和英语批次数据
train_iter = DataLoader(train_data, batch_size=BATCH_SIZE,
shuffle=True, collate_fn=generate_batch) # 创建一个数据迭代器,用于按批次加载训练数据
3.2.6 Sequence-to-sequence Transformer
下面的几行代码和文本解释(用斜体书写)都取自原始的PyTorch教程[https://pytorch.org/tutorials/beginner/translation_transformer.html]。
Transformer是一种Seq2Seq模型,是在“Attention is all you need”论文中引入的,用于解决机器翻译任务。Transformer模型由编码器和解码器块组成,每个块包含固定数量的层。
编码器通过一系列多头注意力和前馈网络层对输入序列进行处理。编码器的输出称为记忆,与目标张量一起被馈送到解码器。编码器和解码器使用教师强制技术进行端到端训练。
from torch.nn import (TransformerEncoder, TransformerDecoder,
TransformerEncoderLayer, TransformerDecoderLayer)
class Seq2SeqTransformer(nn.Module):
def __init__(self, num_encoder_layers: int, num_decoder_layers: int,
emb_size: int, src_vocab_size: int, tgt_vocab_size: int,
dim_feedforward:int = 512, dropout:float = 0.1):
super(Seq2SeqTransformer, self).__init__()
# 初始化编码器和解码器层
encoder_layer = TransformerEncoderLayer(d_model=emb_size, nhead=NHEAD,
dim_feedforward=dim_feedforward)
self.transformer_encoder = TransformerEncoder(encoder_layer, num_layers=num_encoder_layers)
decoder_layer = TransformerDecoderLayer(d_model=emb_size, nhead=NHEAD,
dim_feedforward=dim_feedforward)
self.transformer_decoder = TransformerDecoder(decoder_layer, num_layers=num_decoder_layers)
# 初始化线性层用于生成输出词汇
self.generator = nn.Linear(emb_size, tgt_vocab_size)
# 初始化源语言和目标语言的词嵌入层
self.src_tok_emb = TokenEmbedding(src_vocab_size, emb_size)
self.tgt_tok_emb = TokenEmbedding(tgt_vocab_size, emb_size)
# 初始化位置编码器
self.positional_encoding = PositionalEncoding(emb_size, dropout=dropout)
def forward(self, src: Tensor, trg: Tensor, src_mask: Tensor,
tgt_mask: Tensor, src_padding_mask: Tensor,
tgt_padding_mask: Tensor, memory_key_padding_mask: Tensor):
# 编码源语言序列
src_emb = self.positional_encoding(self.src_tok_emb(src))
memory = self.transformer_encoder(src_emb, src_mask, src_padding_mask)
# 解码目标语言序列
tgt_emb = self.positional_encoding(self.tgt_tok_emb(trg))
outs = self.transformer_decoder(tgt_emb, memory, tgt_mask, None,
tgt_padding_mask, memory_key_padding_mask)
# 生成输出词汇
return self.generator(outs)
def encode(self, src: Tensor, src_mask: Tensor):
# 编码源语言序列
return self.transformer_encoder(self.positional_encoding(
self.src_tok_emb(src)), src_mask)
def decode(self, tgt: Tensor, memory: Tensor, tgt_mask: Tensor):
# 解码目标语言序列
return self.transformer_decoder(self.positional_encoding(
self.tgt_tok_emb(tgt)), memory,
tgt_mask)
文本标记通过使用标记嵌入来表示。位置编码被添加到标记嵌入中,以引入单词顺序的概念。
class PositionalEncoding(nn.Module):
def __init__(self, emb_size: int, dropout, maxlen: int = 5000):
super(PositionalEncoding, self).__init__()
# 计算位置编码矩阵
den = torch.exp(- torch.arange(0, emb_size, 2) * math.log(10000) / emb_size)
pos = torch.arange(0, maxlen).reshape(maxlen, 1)
pos_embedding = torch.zeros((maxlen, emb_size))
pos_embedding[:, 0::2] = torch.sin(pos * den)
pos_embedding[:, 1::2] = torch.cos(pos * den)
pos_embedding = pos_embedding.unsqueeze(-2)
self.dropout = nn.Dropout(dropout)
self.register_buffer('pos_embedding', pos_embedding)
def forward(self, token_embedding: Tensor):
# 添加位置编码到词嵌入中并进行dropout
return self.dropout(token_embedding +
self.pos_embedding[:token_embedding.size(0),:])
class TokenEmbedding(nn.Module):
def __init__(self, vocab_size: int, emb_size):
super(TokenEmbedding, self).__init__()
# 初始化词嵌入层
self.embedding = nn.Embedding(vocab_size, emb_size)
self.emb_size = emb_size
def forward(self, tokens: Tensor):
# 返回词嵌入乘以emb_size的平方
return self.embedding(tokens.long()) * math.sqrt(self.emb_size)
我们创建一个后续词掩码,以阻止目标词与其后续词进行关联。我们还创建了用于掩盖源和目标填充标记的掩码。
def generate_square_subsequent_mask(sz):
# 生成一个上三角矩阵
mask = (torch.triu(torch.ones((sz, sz), device=device)) == 1).transpose(0, 1)
# 将矩阵转换为浮点型,并将0替换为负无穷,1替换为0
mask = mask.float().masked_fill(mask == 0, float('-inf')).masked_fill(mask == 1, float(0.0))
return mask
def create_mask(src, tgt):
src_seq_len = src.shape[0]
tgt_seq_len = tgt.shape[0]
# 生成目标序列的mask
tgt_mask = generate_square_subsequent_mask(tgt_seq_len)
# 创建源序列的mask
src_mask = torch.zeros((src_seq_len, src_seq_len), device=device).type(torch.bool)
# 创建源序列的填充mask
src_padding_mask = (src == PAD_IDX).transpose(0, 1)
# 创建目标序列的填充mask
tgt_padding_mask = (tgt == PAD_IDX).transpose(0, 1)
return src_mask, tgt_mask, src_padding_mask, tgt_padding_mask
定义模型参数并实例化模型。在我们的服务器上,由于计算能力有限,可以进行训练,但效果可能不佳。如果希望看到训练效果,请在配备GPU的个人电脑上运行此代码。
当你使用自己的GPU时,将NUM_ENCODER_LAYERS和NUM_DECODER_LAYERS设置为3或更高,NHEAD设置为8,EMB_SIZE设置为512。
SRC_VOCAB_SIZE = len(ja_vocab) # 源语言词汇表大小
TGT_VOCAB_SIZE = len(en_vocab) # 目标语言词汇表大小
EMB_SIZE = 512 # 词嵌入维度
NHEAD = 8 # 注意力头数
FFN_HID_DIM = 512 # 前馈网络隐藏层维度
BATCH_SIZE = 16 # 批次大小
NUM_ENCODER_LAYERS = 3 # 编码器层数
NUM_DECODER_LAYERS = 3 # 解码器层数
NUM_EPOCHS = 16 # 训练轮数
# 初始化Transformer模型
transformer = Seq2SeqTransformer(NUM_ENCODER_LAYERS, NUM_DECODER_LAYERS,
EMB_SIZE, SRC_VOCAB_SIZE, TGT_VOCAB_SIZE,
FFN_HID_DIM)
# 对模型参数进行Xavier初始化
for p in transformer.parameters():
if p.dim() > 1:
nn.init.xavier_uniform_(p)
transformer = transformer.to(device)
# 定义损失函数和优化器
loss_fn = torch.nn.CrossEntropyLoss(ignore_index=PAD_IDX)
optimizer = torch.optim.Adam(
transformer.parameters(), lr=0.0001, betas=(0.9, 0.98), eps=1e-9
)
def train_epoch(model, train_iter, optimizer):
model.train()
losses = 0
for idx, (src, tgt) in enumerate(train_iter):
src = src.to(device)
tgt = tgt.to(device)
tgt_input = tgt[:-1, :]
src_mask, tgt_mask, src_padding_mask, tgt_padding_mask = create_mask(src, tgt_input)
logits = model(src, tgt_input, src_mask, tgt_mask,
src_padding_mask, tgt_padding_mask, src_padding_mask)
optimizer.zero_grad()
tgt_out = tgt[1:,:]
loss = loss_fn(logits.reshape(-1, logits.shape[-1]), tgt_out.reshape(-1))
loss.backward()
optimizer.step()
losses += loss.item()
return losses / len(train_iter)
def evaluate(model, val_iter):
model.eval()
losses = 0
for idx, (src, tgt) in (enumerate(valid_iter)):
src = src.to(device)
tgt = tgt.to(device)
tgt_input = tgt[:-1, :]
src_mask, tgt_mask, src_padding_mask, tgt_padding_mask = create_mask(src, tgt_input)
logits = model(src, tgt_input, src_mask, tgt_mask,
src_padding_mask, tgt_padding_mask, src_padding_mask)
tgt_out = tgt[1:,:]
loss = loss_fn(logits.reshape(-1, logits.shape[-1]), tgt_out.reshape(-1))
losses += loss.item()
return losses / len(val_iter)
3.2.7 开始训练
最后,在准备好必要的类和函数之后,我们准备训练我们的模型。毫无疑问,训练完成所需的时间可能会因计算能力、参数和数据集大小等诸多因素而有很大差异。
当我使用了JParaCrawl的完整句子列表进行训练,每种语言大约有590万句子时,使用单个NVIDIA GeForce RTX 3070 GPU,每个epoch大约需要5个小时。
以下是代码:
for epoch in tqdm.tqdm(range(1, NUM_EPOCHS+1)):
start_time = time.time()
train_loss = train_epoch(transformer, train_iter, optimizer)
end_time = time.time()
print((f"Epoch: {epoch}, Train loss: {train_loss:.3f}, "
f"Epoch time = {(end_time - start_time):.3f}s"))
3.2.8 尝试使用训练好的模型翻译一句日语句子
首先,我们创建用于翻译新句子的函数,包括获取日语句子、分词、转换为张量、推理,然后将结果解码回一个英文句子。
def greedy_decode(model, src, src_mask, max_len, start_symbol):
# 将输入数据移动到设备上
src = src.to(device)
src_mask = src_mask.to(device)
# 编码输入序列得到记忆
memory = model.encode(src, src_mask)
# 初始化目标序列
ys = torch.ones(1, 1).fill_(start_symbol).type(torch.long).to(device)
for i in range(max_len-1):
# 将记忆移动到设备上
memory = memory.to(device)
# 创建目标序列的mask
memory_mask = torch.zeros(ys.shape[0], memory.shape[0]).to(device).type(torch.bool)
tgt_mask = (generate_square_subsequent_mask(ys.size(0))
.type(torch.bool)).to(device)
# 解码得到输出概率分布
out = model.decode(ys, memory, tgt_mask)
out = out.transpose(0, 1)
prob = model.generator(out[:, -1])
# 选择概率最高的词作为下一个词
_, next_word = torch.max(prob, dim = 1)
next_word = next_word.item()
# 将预测的词拼接到目标序列中
ys = torch.cat([ys,
torch.ones(1, 1).type_as(src.data).fill_(next_word)], dim=0)
# 如果预测的词是终止符,则停止解码
if next_word == EOS_IDX:
break
return ys
def translate(model, src, src_vocab, tgt_vocab, src_tokenizer):
model.eval()
# 对源语言句子进行编码
tokens = [BOS_IDX] + [src_vocab.stoi[tok] for tok in src_tokenizer.encode(src, out_type=str)]+ [EOS_IDX]
num_tokens = len(tokens)
src = (torch.LongTensor(tokens).reshape(num_tokens, 1) )
src_mask = (torch.zeros(num_tokens, num_tokens)).type(torch.bool)
# 使用贪婪解码得到目标语言句子
tgt_tokens = greedy_decode(model, src, src_mask, max_len=num_tokens + 5, start_symbol=BOS_IDX).flatten()
# 将目标语言词索引转换为词汇
return " ".join([tgt_vocab.itos[tok] for tok in tgt_tokens]).replace("<bos>", "").replace("<eos>", "")
然后,我们只需调用翻译函数并传递所需的参数。
translate(transformer, "HSコード 8515 はんだ付け用、ろう付け用又は溶接用の機器(電気式(電気加熱ガス式を含む。)", ja_vocab, en_vocab, ja_tokenizer)
trainen.pop(5)
trainja.pop(5)
3.2.9 保存词汇对象和训练好的模型
最后,在训练完成后,我们将首先使用Pickle保存词汇对象(en_vocab和ja_vocab)。
import pickle
# 打开一个文件,用于存储数据
file = open('en_vocab.pkl', 'wb')
# 将英语词汇表(en_vocab)的信息存储到文件中
pickle.dump(en_vocab, file)
# 关闭文件
file.close()
# 打开一个文件,用于存储数据
file = open('ja_vocab.pkl', 'wb')
# 将日语词汇表(ja_vocab)的信息存储到文件中
pickle.dump(ja_vocab, file)
# 关闭文件
file.close()
最后,我们还可以使用PyTorch的保存和加载函数将模型保存起来以备后用。一般来说,根据后续使用的目的,有两种保存模型的方式。第一种方式是仅用于推理,我们可以在后续加载模型并将其用于从日语翻译成英语。
# save model for inference
torch.save(transformer.state_dict(), 'inference_model')
第二种方式也用于推理,但也适用于在以后加载模型并恢复训练时使用。
# 保存模型和检查点,以便稍后恢复训练
torch.save({
'epoch': NUM_EPOCHS, # 保存当前训练的轮数
'model_state_dict': transformer.state_dict(), # 保存模型的状态字典
'optimizer_state_dict': optimizer.state_dict(), # 保存优化器的状态字典
'loss': train_loss, # 保存当前训练的损失值
}, 'model_checkpoint.tar') # 将所有信息保存到名为'model_checkpoint.tar'的文件中
参考文献
http://www.kecl.ntt.co.jp/icl/lirg/jparacrawl
https://pytorch.org/tutorials/beginner/translation_transformer.html