机器翻译——Transformer和注意力机制

最新推荐文章于 2024-07-08 21:41:09 发布

m0_71034042

最新推荐文章于 2024-07-08 21:41:09 发布

阅读量909

点赞数 26

文章标签：机器翻译 transformer 人工智能 nlp

本文链接：https://blog.csdn.net/m0_71034042/article/details/140070809

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

一、基础内容
二、基于注意力机制的机器翻译
三、基于transformer的机器翻译

一、基础内容

1.1 Encoder-Decoder

是NLG的主要模型。
Encoder（编码器）将显示模型转化为数学模型，这个输入的序列往往是不定长的，但是得到的向量C是固定长度的。在Seq2Seq中通常为循环神经网络，例如RNN或者LSTM。
Decoder（解码器）是求解数学模型，将向量转化为现实生活的答案。在Seq2Seq中通常也是一个循环卷积网络。

1.2注意力机制

在编码器—解码器（seq2seq）里，解码器在各个时间步依赖相同的背景变量来获取输入序列信息。当编码器为循环神经网络时，背景变量来自它最终时间步的隐藏状态。解码器在生成输出序列中的每一个词时可能只需利用输入序列某一部分的信息。例如，在输出序列的时间步1，解码器可以主要依赖“They”“are”的信息来生成“Ils”，在时间步2则主要使用来自“watching”的编码信息生成“regardent”，最后在时间步3则直接映射句号“.”。这看上去就像是在解码器的每一时间步对输入序列中不同时间步的表征或编码信息分配不同的注意力一样。这是注意力机制的由来。

因此，注意力机制是对在时间步t背景变量下对所有编码器的隐状态做加权平均。
Attention

1.23Transformer介绍

Transformer也是在Encoder-Decoder的框架下提出的，在Transformer里面有6个“子Encoder”和6个“子Decoder”，每个子Encoder由一个自注意力机制和一个FNN组成，每个Decoder在子Encoder的基础上多了一个编码注意力。最后一个Encoder的输出会传给每一个Decoder。
ENcoder和Decoder

二、基于注意力机制的机器翻译

2.1数据预处理

我们先定义一些特殊符号。其中“”（padding）符号用来添加在较短序列后，直到每个序列等长，而“”和“”符号分别表示序列的开始和结束。

import collections
import os
import io
import math
import torch
from torch import nn
import torch.nn.functional as F
import torchtext.vocab as Vocab
import torch.utils.data as Data
 
import sys
# sys.path.append("..") 
import d2lzh_pytorch as d2l
 
PAD, BOS, EOS = '<pad>', '<bos>', '<eos>'    # 定义特殊标记
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
 
print(torch.__version__, device)

接着定义两个辅助函数对后面读取的数据进行预处理。

# 将一个序列中所有的词记录在all_tokens中以便之后构造词典，然后在该序列后面添加PAD直到序列
# 长度变为max_seq_len，然后将序列保存在all_seqs中
def process_one_seq(seq_tokens, all_tokens, all_seqs, max_seq_len):
    all_tokens.extend(seq_tokens)
    seq_tokens += [EOS] + [PAD] * (max_seq_len - len(seq_tokens) - 1)
    all_seqs.append(seq_tokens)
 
# 使用所有的词来构造词典。并将所有序列中的词变换为词索引后构造Tensor
def build_data(all_tokens, all_seqs):
    # 创建词汇表，其中包括所有 token 的频率统计，并添加特殊标记
    vocab = Vocab.Vocab(collections.Counter(all_tokens), specials=[PAD, BOS, EOS])
    
    # 将每个序列中的单词转换为对应的索引
    indices = [[vocab.stoi[w] for w in seq] for seq in all_seqs]
    
    # 返回词汇表和转换后的索引序列
    return vocab, torch.tensor(indices)

为了演示方便，我们在这里使用一个很小的法语—英语数据集。在这个数据集里，每一行是一对法语句子和它对应的英语句子，中间使用’\t’隔开。在读取数据时，我们在句末附上“”符号，并可能通过添加“”符号使每个序列的长度均为max_seq_len。我们为法语词和英语词分别创建词典。法语词的索引和英语词的索引相互独立。

def read_data(max_seq_len):
    # in和out分别是input和output的缩写
    in_tokens, out_tokens, in_seqs, out_seqs = [], [], [], []
    # 打开文件并逐行读取数据
    with io.open('fr-en-small.txt') as f:
        lines = f.readlines()
    
    # 遍历每一行数据
    for line in lines:
        # 将输入序列和输出序列分开
        in_seq, out_seq = line.rstrip().split('\t')
        
        # 将输入序列和输出序列按空格分割成单词列表
        in_seq_tokens, out_seq_tokens = in_seq.split(' '), out_seq.split(' ')
        
        # 如果加上 EOS 后长于 max_seq_len，则忽略掉此样本
        if max(len(in_seq_tokens), len(out_seq_tokens)) > max_seq_len - 1:
            continue  # 跳过这个样本
        
        # 处理输入序列和输出序列，将单词添加到相应的列表中
        process_one_seq(in_seq_tokens, in_tokens, in_seqs, max_seq_len)
        process_one_seq(out_seq_tokens, out_tokens, out_seqs, max_seq_len)
    
    # 构建输入和输出的词汇表及数据集
    in_vocab, in_data = build_data(in_tokens, in_seqs)
    out_vocab, out_data = build_data(out_tokens, out_seqs)
    
    # 返回输入词汇表、输出词汇表和数据集
    return in_vocab, out_vocab, Data.TensorDataset(in_data, out_data)

将序列的最大长度设成7，然后查看读取到的第一个样本。该样本分别包含法语词索引序列和英语词索引序列。

max_seq_len = 7
in_vocab, out_vocab, dataset = read_data(max_seq_len)
dataset[0]

2.2含注意力机制的编码器—解码器

在编码器中，我们将输入语言的词索引通过词嵌入层得到词的表征，然后输入到一个多层门控循环单元中。正如我们在6.5节（循环神经网络的简洁实现）中提到的，PyTorch的nn.GRU实例在前向计算后也会分别返回输出和最终时间步的多层隐藏状态。其中的输出指的是最后一层的隐藏层在各个时间步的隐藏状态，并不涉及输出层计算。注意力机制将这些输出作为键项和值项。

class Encoder(nn.Module):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 drop_prob=0, **kwargs):
        super(Encoder, self).__init__(**kwargs)
       # 初始化 Embedding 层和 GRU 层
        self.embedding = nn.Embedding(vocab_size, embed_size)  # 定义词嵌入层
        self.rnn = nn.GRU(embed_size, num_hiddens, num_layers, dropout=drop_prob)  # 定义GRU层
 
    def forward(self, inputs, state):
        # 输入形状是(批量大小, 时间步数)。将输出互换样本维和时间步维
        embedding = self.embedding(inputs.long()).permute(1, 0, 2) # 对输入进行嵌入，并且转置 1, 0, 2
        return self.rnn(embedding, state)  # 返回GRU网络
 
    def begin_state(self):
        return None
#下面我们来创建一个批量大小为4、时间步数为7的小批量序列输入。设门控循环单元的隐藏层个数为2，隐藏单元个数为16。编码器对该输入执行前向计算后返回的输出形状为(时间步数, 批量大小, 隐藏单元个数)。门控循环单元在最终时间步的多层隐藏状态的形状为(隐藏层个数, 批量大小, 隐藏单元个数)。对于门控循环单元来说，state就是一个元素，即隐藏状态；如果使用长短期记忆，state是一个元组，包含两个元素即隐藏状态和记忆细胞。
encoder = Encoder(vocab_size=10, embed_size=8, num_hiddens=16, num_layers=2)
output, state = encoder(torch.zeros((4, 7)), encoder.begin_state())
output.shape, state.shape # GRU的state是h, 而LSTM的是一个元组(h, c)

下面将实现注意力机制中定义的函数𝑎：将输入连结后通过含单隐藏层的多层感知机变换。其中隐藏层的输入是解码器的隐藏状态与编码器在所有时间步上隐藏状态的一一连结，且使用tanh函数作为激活函数。输出层的输出个数为1。两个Linear实例均不使用偏差。其中函数𝑎定义里向量𝑣的长度是一个超参数，即attention_size。

注意力机制的输入包括查询项、键项和值项。设编码器和解码器的隐藏单元个数相同。这里的查询项为解码器在上一时间步的隐藏状态，形状为(批量大小, 隐藏单元个数)；键项和值项均为编码器在所有时间步的隐藏状态，形状为(时间步数, 批量大小, 隐藏单元个数)。注意力机制返回当前时间步的背景变量，形状为(批量大小, 隐藏单元个数)。

def attention_model(input_size, attention_size):
     # 创建一个序列模型
    model = nn.Sequential(
        nn.Linear(input_size, attention_size, bias=False),  # 线性层，输入大小为input_size，输出大小为attention_size，不使用偏置项
        nn.Tanh(),  # Tanh激活函数
        nn.Linear(attention_size, 1, bias=False)  # 第二个线性层，输入大小为attention_size，输出大小为1，不使用偏置项
    )
    return model
 
def attention_forward(model, enc_states, dec_state):
    """
    enc_states: (时间步数, 批量大小, 隐藏单元个数)
    dec_state: (批量大小, 隐藏单元个数)
    """
    # 将解码器隐藏状态广播到和编码器隐藏状态形状相同后进行连结
    dec_states = dec_state.unsqueeze(dim=0).expand_as(enc_states)
    enc_and_dec_states = torch.cat((enc_states, dec_states), dim=2)
    e = model(enc_and_dec_states)  # 形状为(时间步数, 批量大小, 1)
    alpha = F.softmax(e, dim=0)  # 在时间步维度做softmax运算
    return (alpha * enc_states).sum(dim=0)  # 返回背景变量

在下面的例子中，编码器的时间步数为10，批量大小为4，编码器和解码器的隐藏单元个数均为8。注意力机制返回一个小批量的背景向量，每个背景向量的长度等于编码器的隐藏单元个数。因此输出的形状为(4, 8)。

seq_len, batch_size, num_hiddens = 10, 4, 8
model = attention_model(2*num_hiddens, 10)  #在注意力模型中，通常输入的大小是两倍于编码器隐藏状态的大小。attention_size=10
enc_states = torch.zeros((seq_len, batch_size, num_hiddens))  #编码器的状态
dec_state = torch.zeros((batch_size, num_hiddens))
attention_forward(model, enc_states, dec_state).shape

直接将编码器在最终时间步的隐藏状态作为解码器的初始隐藏状态。这要求编码器和解码器的循环神经网络使用相同的隐藏层个数和隐藏单元个数。

在解码器的前向计算中，我们先通过刚刚介绍的注意力机制计算得到当前时间步的背景向量。由于解码器的输入来自输出语言的词索引，我们将输入通过词嵌入层得到表征，然后和背景向量在特征维连结。我们将连结后的结果与上一时间步的隐藏状态通过门控循环单元计算出当前时间步的输出与隐藏状态。最后，我们将输出通过全连接层变换为有关各个输出词的预测，形状为(批量大小, 输出词典大小)。

class Decoder(nn.Module):
    def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,
                 attention_size, drop_prob=0):
        super(Decoder, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.attention = attention_model(2*num_hiddens, attention_size)
        # GRU的输入包含attention输出的c和实际输入, 所以尺寸是 num_hiddens+embed_size
        self.rnn = nn.GRU(num_hiddens + embed_size, num_hiddens, 
                          num_layers, dropout=drop_prob)
        self.out = nn.Linear(num_hiddens, vocab_size)
 
    def forward(self, cur_input, state, enc_states):
        """
        cur_input shape: (batch, )
        state shape: (num_layers, batch, num_hiddens)
        """
        # 使用注意力机制计算背景向量
        c = attention_forward(self.attention, enc_states, state[-1])
        # 将嵌入后的输入和背景向量在特征维连结, (批量大小, num_hiddens+embed_size)
        input_and_c = torch.cat((self.embedding(cur_input), c), dim=1) 
        # 为输入和背景向量的连结增加时间步维，时间步个数为1
        output, state = self.rnn(input_and_c.unsqueeze(0), state)
        # 移除时间步维，输出形状为(批量大小, 输出词典大小)
        output = self.out(output).squeeze(dim=0)
        return output, state
 
    def begin_state(self, enc_state):
        # 直接将编码器最终时间步的隐藏状态作为解码器的初始隐藏状态
        return enc_state

2.3训练模型

我们先实现batch_loss函数计算一个小批量的损失。解码器在最初时间步的输入是特殊字符BOS。之后，解码器在某时间步的输入为样本输出序列在上一时间步的词，即强制教学。此外，同10.3节（word2vec的实现）中的实现一样，我们在这里也使用掩码变量避免填充项对损失函数计算的影响。在训练函数中，我们需要同时迭代编码器和解码器的模型参数。接下来，创建模型实例并设置超参数。然后，我们就可以训练模型了。

def batch_loss(encoder, decoder, X, Y, loss):
    batch_size = X.shape[0]
    enc_state = encoder.begin_state()
    enc_outputs, enc_state = encoder(X, enc_state)
    # 初始化解码器的隐藏状态
    dec_state = decoder.begin_state(enc_state)
    # 解码器在最初时间步的输入是BOS
    dec_input = torch.tensor([out_vocab.stoi[BOS]] * batch_size)
    # 我们将使用掩码变量mask来忽略掉标签为填充项PAD的损失, 初始全1
    mask, num_not_pad_tokens = torch.ones(batch_size,), 0
    l = torch.tensor([0.0])
    for y in Y.permute(1,0): # Y shape: (batch, seq_len)
        dec_output, dec_state = decoder(dec_input, dec_state, enc_outputs)
        l = l + (mask * loss(dec_output, y)).sum()
        dec_input = y  # 使用强制教学
        num_not_pad_tokens += mask.sum().item()
        # EOS后面全是PAD. 下面一行保证一旦遇到EOS接下来的循环中mask就一直是0
        mask = mask * (y != out_vocab.stoi[EOS]).float()
    return l / num_not_pad_tokens
 
def train(encoder, decoder, dataset, lr, batch_size, num_epochs):
    # 初始化Adam优化器用于编码器和解码器
    enc_optimizer = torch.optim.Adam(encoder.parameters(), lr=lr)
    dec_optimizer = torch.optim.Adam(decoder.parameters(), lr=lr)
    # 定义损失函数
    loss = nn.CrossEntropyLoss(reduction='none')
    # 创建数据迭代器，用于遍历数据集
    data_iter = Data.DataLoader(dataset, batch_size, shuffle=True)
    # 迭代训练每个epoch
    for epoch in range(num_epochs):
        l_sum = 0.0  # 初始化用于累加每个epoch的总损失
        # 遍历数据的每个批次
        for X, Y in data_iter:
            enc_optimizer.zero_grad()  # 清零编码器优化器的梯度
            dec_optimizer.zero_grad()  # 清零解码器优化器的梯度
            # 计算当前批次的损失
            l = batch_loss(encoder, decoder, X, Y, loss)
            # 执行反向传播
            l.backward()
            # 更新编码器和解码器的参数
            enc_optimizer.step()
            dec_optimizer.step()
            # 累加当前批次的损失，用于计算每个epoch的平均损失
            l_sum += l.item()
        # 每10个epoch打印一次平均损失
        if (epoch + 1) % 10 == 0:
            print("epoch %d, loss %.3f" % (epoch + 1, l_sum / len(data_iter)))
 
# 定义模型超参数
embed_size, num_hiddens, num_layers = 64, 64, 2
attention_size, drop_prob, lr, batch_size, num_epochs = 10, 0.5, 0.01, 2, 50
 
# 创建编码器和解码器实例
encoder = Encoder(len(in_vocab), embed_size, num_hiddens, num_layers, drop_prob)
decoder = Decoder(len(out_vocab), embed_size, num_hiddens, num_layers, attention_size, drop_prob)
 
# 使用数据集进行训练
train(encoder, decoder, dataset, lr, batch_size, num_epochs)

2.4 预测不定长的序列

在之前我们介绍了3种方法来生成解码器在每个时间步的输出。这里我们实现最简单的贪婪搜索。简单测试一下模型。输入法语句子“ils regardent.”，翻译后的英语句子应该是“they are watching.”。

def translate(encoder, decoder, input_seq, max_seq_len):
    # 将输入序列分割为词元，并添加结束符（EOS）和填充符（PAD）以匹配最大序列长度
    in_tokens = input_seq.split(' ')
    in_tokens += [EOS] + [PAD] * (max_seq_len - len(in_tokens) - 1)
    # 将输入序列转换为张量，并添加一个额外的维度表示批处理大小为1
    enc_input = torch.tensor([[in_vocab.stoi[tk] for tk in in_tokens]])  # batch=1
    # 初始化编码器的初始状态并进行编码器的前向计算
    enc_state = encoder.begin_state()
    enc_output, enc_state = encoder(enc_input, enc_state)
    # 初始化解码器的输入为起始符（BOS）
    dec_input = torch.tensor([out_vocab.stoi[BOS]])
    # 使用编码器的输出和状态进行解码器的前向计算，生成翻译后的输出序列
    dec_state = decoder.begin_state(enc_state)
    output_tokens = []
    # 迭代解码生成序列，最多进行max_seq_len次迭代
    for _ in range(max_seq_len):
        dec_output, dec_state = decoder(dec_input, dec_state, enc_output)
        # 预测输出中概率最高的词元
        pred = dec_output.argmax(dim=1)
        pred_token = out_vocab.itos[int(pred.item())]
        # 如果预测到了结束符（EOS），则停止生成序列
        if pred_token == EOS:
            break
        else:
            output_tokens.append(pred_token)
            dec_input = pred  # 将当前预测作为下一个解码器的输入
    
    return output_tokens
 
input_seq = 'ils regardent .'
translate(encoder, decoder, input_seq, max_seq_len)

2.5 评价翻译结果

评价机器翻译结果通常使用BLEU。对于模型预测序列中任意的子序列，BLEU考察这个子序列是否出现在标签序列中。

def bleu(pred_tokens, label_tokens, k):
    len_pred, len_label = len(pred_tokens), len(label_tokens)
    score = math.exp(min(0, 1 - len_label / len_pred))
   # 对每个n-gram计算匹配数和相关项
    for n in range(1, k + 1):
        num_matches, label_subs = 0, collections.defaultdict(int)
        
        # 统计参考标签中所有长度为n的子序列的出现次数
        for i in range(len_label - n + 1):
            label_subs[''.join(label_tokens[i: i + n])] += 1
        
        # 计算预测序列中与参考标签匹配的n-gram数量
        for i in range(len_pred - n + 1):
            if label_subs[''.join(pred_tokens[i: i + n])] > 0:
                num_matches += 1
                label_subs[''.join(pred_tokens[i: i + n])] -= 1
        
        # 计算当前n-gram精确度，并应用长度惩罚因子
        score *= math.pow(num_matches / (len_pred - n + 1), math.pow(0.5, n))
    
    return score
 
#接下来，定义一个辅助打印函数。
def score(input_seq, label_seq, k):
    pred_tokens = translate(encoder, decoder, input_seq, max_seq_len)
    label_tokens = label_seq.split(' ')
    print('bleu %.3f, predict: %s' % (bleu(pred_tokens, label_tokens, k),
                                      ' '.join(pred_tokens)))
 
预测正确则分数为1。
score('ils regardent .', 'they are watching .', k=2)

三、基于transformer的机器翻译

3.1 数据集获取

我们将使用从http://www.kecl.ntt.co.jp/icl/lirg/jparacrawl下载的日英并行数据集，该数据集包含大量日语到英语的句子对，我们可以通过以下代码加载数据，并将其转换为训练所需的格式。

import math  # 导入 math 模块，用于数学函数
import torchtext  # 导入 torchtext 库，用于文本处理工具
import torch  # 导入 PyTorch 深度学习框架
import torch.nn as nn  # 从 PyTorch 导入神经网络模块
from torch import Tensor  # 从 torch 导入 Tensor 类
from torch.nn.utils.rnn import pad_sequence  # 导入用于批量填充序列的函数
from torch.utils.data import DataLoader  # 从 PyTorch 导入 DataLoader 类，用于处理数据集
from collections import Counter  # 从 collections 模块导入 Counter 类，用于计数可哈希对象
from torchtext.vocab import Vocab  # 从 torchtext.vocab 导入 Vocab 类，用于处理词汇表
from torch.nn import TransformerEncoder, TransformerDecoder, TransformerEncoderLayer, TransformerDecoderLayer  # 从 PyTorch 导入 Transformer 模型架构的类和函数
import io  # 导入 io 模块，用于处理流
import time  # 导入 time 模块，用于处理时间相关的函数
import pandas as pd  # 导入 pandas 库，用于数据处理和分析
import numpy as np  # 导入 numpy 库，用于数值操作
import pickle  # 导入 pickle 模块，用于序列化和反序列化 Python 对象
import tqdm  # 导入 tqdm 库，用于显示进度条
import sentencepiece as spm  # 导入 sentencepiece 库，用于分词
 
torch.manual_seed(0)  # 设置随机种子以便复现性
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')  # 检查是否有 GPU 可用，根据情况设置设备

# 读取数据集
df = pd.read_csv('zh-ja.bicleaner05.txt', sep='\\t', engine='python', header=None)
trainen = df[2].values.tolist() # 句子的英文部分存储在 trainen 列表中
trainja = df[3].values.tolist() # 句子的日文部分存储在 trainja 列表中
 
# 可选操作：注释掉的代码是如何删除指定索引处的句子（第 5972 行）的示例
#trainen.pop(5972) 
#trainja.pop(5972) 
print(trainen[500])
# 打印中文数据
print(trainja[500])
# 打印日文数据

3.2 分词

这一步将原始文本转换为模型可以处理的token序列。与英语或其他字母语言不同，日语句子不包含空格来分隔单词。

en_tokenizer = spm.SentencePieceProcessor(model_file='spm.en.nopretok.model') #加载中文分词模型文件
ja_tokenizer = spm.SentencePieceProcessor(model_file='spm.ja.nopretok.model') #加载日文分词模型文件
# 示例文本编码和解码
encoded_sentence = en_tokenizer.encode("All residents aged 20 to 59 years who live in Japan must enroll in public pension system.")
print(encoded_sentence)
decoded_sentence = en_tokenizer.decode(encoded_sentence)
print(decoded_sentence)
 
# 示例日文文本编码和解码
encoded_sentence = ja_tokenizer.encode("年金 日本に住んでいる20歳~60歳の全ての人は、公的年金制度に加入しなければなりません。")
print(encoded_sentence)
decoded_sentence = ja_tokenizer.decode(encoded_sentence)
print(decoded_sentence)

3.3 构建词向量

使用torchtext.vocab.Vocab构建源语言和目标语言的词汇表对象。词汇表将token映射到对应的索引，并添加特殊标记以处理未知标记、填充、句子起始和结束等情况。

# 构建词汇表
def build_vocab(sentences, tokenizer):
    counter = Counter()
    for sentence in sentences:
        counter.update(tokenizer.encode(sentence, out_type=str))
    return Vocab(counter, specials=['<unk>', '<pad>', '<bos>', '<eos>'])
# 使用 build_vocab 函数分别为日语 (trainja) 和英语 (trainen) 句子构建词汇表。
ja_vocab = build_vocab(trainja, ja_tokenizer)
en_vocab = build_vocab(trainen, en_tokenizer)
# 数据处理函数，将文本转换为张量形式
def data_process(ja, en):
    data = []
    for (raw_ja, raw_en) in zip(ja, en):
        ja_tensor_ = torch.tensor([ja_vocab[token] for token in ja_tokenizer.encode(raw_ja.rstrip("\n"), out_type=str)],
                            dtype=torch.long)
        en_tensor_ = torch.tensor([en_vocab[token] for token in en_tokenizer.encode(raw_en.rstrip("\n"), out_type=str)],
                            dtype=torch.long)
        data.append((ja_tensor_, en_tensor_))
    return data
# 使用 data_process 函数处理训练数据 (trainja 和 trainen)，并将处理后的数据存储在 train_data 中。
train_data = data_process(trainja, trainen)

3.4 创建迭代的 DataLoader 对象

使用torch.utils.data.DataLoader创建用于训练和评估的批处理数据。在数据加载器中，对每个批次的句子进行填充以保证长度一致，以便Transformer模型处理。

# 设置批处理大小和填充索引
BATCH_SIZE = 8
PAD_IDX = ja_vocab['<pad>']
BOS_IDX = ja_vocab['<bos>']
EOS_IDX = ja_vocab['<eos>']
 
# 生成批处理数据函数
def generate_batch(data_batch):
    ja_batch, en_batch = [], []
    for (ja_item, en_item) in data_batch:
        # 在每个句子的开始和结尾添加特殊标记
        ja_batch.append(torch.cat([torch.tensor([BOS_IDX]), ja_item, torch.tensor([EOS_IDX])], dim=0))
        en_batch.append(torch.cat([torch.tensor([BOS_IDX]), en_item, torch.tensor([EOS_IDX])], dim=0))
    # 使用pad_sequence对批次进行填充
    ja_batch = pad_sequence(ja_batch, padding_value=PAD_IDX)
    en_batch = pad_sequence(en_batch, padding_value=PAD_IDX)
    return ja_batch, en_batch
# 创建数据加载器
train_iter = DataLoader(train_data, batch_size=BATCH_SIZE,shuffle=True, collate_fn=generate_batch)

3.5 Transformer模型

Transformer 是Seq2Seq 模型，由一个编码器和解码器块组成，每个块包含固定数量的层。编码器通过一系列多头注意力和前馈网络层传播输入序列来处理输入序列。编码器的输出称为内存，与目标张量一起输入到解码器。编码器和解码器使用教师强制技术（Teacher Forcing）以端到端方式进行训练。

from torch.nn import (TransformerEncoder, TransformerDecoder,
                      TransformerEncoderLayer, TransformerDecoderLayer)
 
 
# 定义Seq2SeqTransformer模型
class Seq2SeqTransformer(nn.Module):
    def __init__(self, num_encoder_layers: int, num_decoder_layers: int,
                 emb_size: int, src_vocab_size: int, tgt_vocab_size: int,
                 dim_feedforward:int = 512, dropout:float = 0.1):
        super(Seq2SeqTransformer, self).__init__()
        
        # 创建Transformer编码器和解码器层
        encoder_layer = TransformerEncoderLayer(d_model=emb_size, nhead=NHEAD,
                                                dim_feedforward=dim_feedforward)
        self.transformer_encoder = TransformerEncoder(encoder_layer, num_layers=num_encoder_layers)
        
        decoder_layer = TransformerDecoderLayer(d_model=emb_size, nhead=NHEAD,
                                                dim_feedforward=dim_feedforward)
        self.transformer_decoder = TransformerDecoder(decoder_layer, num_layers=num_decoder_layers)
 
        # 生成器层
        self.generator = nn.Linear(emb_size, tgt_vocab_size)
        
        # 源和目标标记嵌入
        self.src_tok_emb = TokenEmbedding(src_vocab_size, emb_size)
        self.tgt_tok_emb = TokenEmbedding(tgt_vocab_size, emb_size)
        
        # 位置编码层
        self.positional_encoding = PositionalEncoding(emb_size, dropout=dropout)
 
    def forward(self, src: Tensor, tgt: Tensor, src_mask: Tensor,
                tgt_mask: Tensor, src_padding_mask: Tensor,
                tgt_padding_mask: Tensor, memory_key_padding_mask: Tensor):
        
        # 编码器和解码器的前向传播
        src_emb = self.positional_encoding(self.src_tok_emb(src))
        tgt_emb = self.positional_encoding(self.tgt_tok_emb(tgt))
        
        memory = self.transformer_encoder(src_emb, src_mask, src_padding_mask)
        
        outs = self.transformer_decoder(tgt_emb, memory, tgt_mask, None,
                                        tgt_padding_mask, memory_key_padding_mask)
        return self.generator(outs)
 
    def encode(self, src: Tensor, src_mask: Tensor):
        # 编码器的前向传播
        return self.transformer_encoder(self.positional_encoding(
                            self.src_tok_emb(src)), src_mask)
 
    def decode(self, tgt: Tensor, memory: Tensor, tgt_mask: Tensor):
        # 解码器的前向传播
        return self.transformer_decoder(self.positional_encoding(
                          self.tgt_tok_emb(tgt)), memory,
                          tgt_mask)

文本标记使用标记嵌入来表示。将位置编码添加到标记嵌入中以引入词序概念。

# 定义位置编码器类
class PositionalEncoding(nn.Module):
    def __init__(self, emb_size: int, dropout, maxlen: int = 5000):
        super(PositionalEncoding, self).__init__()
        # 初始化位置编码矩阵
        den = torch.exp(- torch.arange(0, emb_size, 2) * math.log(10000) / emb_size)# 计算位置编码的分母
        pos = torch.arange(0, maxlen).reshape(maxlen, 1)
        pos_embedding = torch.zeros((maxlen, emb_size))# 初始化位置编码矩阵
        pos_embedding[:, 0::2] = torch.sin(pos * den)# 在偶数索引位置计算sin函数
        pos_embedding[:, 1::2] = torch.cos(pos * den)# 在奇数索引位置计算cos函数
        pos_embedding = pos_embedding.unsqueeze(-2)
 
        self.dropout = nn.Dropout(dropout)  # 定义Dropout层
        self.register_buffer('pos_embedding', pos_embedding)
 
    def forward(self, token_embedding: Tensor):
         # 将位置编码加入到输入的嵌入向量中，并应用Dropout
        return self.dropout(token_embedding + self.pos_embedding[:token_embedding.size(0), :])
 
 
# 定义标记嵌入器类
class TokenEmbedding(nn.Module):
    def __init__(self, vocab_size: int, emb_size):
        super(TokenEmbedding, self).__init__()
        self.embedding = nn.Embedding(vocab_size, emb_size)
        self.emb_size = emb_size
 
    def forward(self, tokens: Tensor):
        # 获取标记的嵌入表示并缩放
        return self.embedding(tokens.long()) * math.sqrt(self.emb_size)

创建后续单词掩码，以阻止目标单词关注其后续单词。我们还创建掩码，用于掩蔽源和目标填充标记。

# 生成方形的后续掩码函数
def generate_square_subsequent_mask(sz):
    mask = (torch.triu(torch.ones((sz, sz), device=device)) == 1).transpose(0, 1)
    mask = mask.float().masked_fill(mask == 0, float('-inf')).masked_fill(mask == 1, float(0.0))
    return mask
 
# 创建掩码函数
def create_mask(src, tgt):
    src_seq_len = src.shape[0]
    tgt_seq_len = tgt.shape[0]
 
    tgt_mask = generate_square_subsequent_mask(tgt_seq_len)
    src_mask = torch.zeros((src_seq_len, src_seq_len), device=device).type(torch.bool)
 
    src_padding_mask = (src == PAD_IDX).transpose(0, 1)
    tgt_padding_mask = (tgt == PAD_IDX).transpose(0, 1)
    return src_mask, tgt_mask, src_padding_mask, tgt_padding_mask

下面代码定义了一个基于Transformer的序列到序列模型，并设置了训练和评估过程的函数，通过多轮次训练模型以实现机器翻译任务。

# 创建Seq2SeqTransformer模型实例
SRC_VOCAB_SIZE = len(ja_vocab)
TGT_VOCAB_SIZE = len(en_vocab)
EMB_SIZE = 512
NHEAD = 8
FFN_HID_DIM = 512
BATCH_SIZE = 16
NUM_ENCODER_LAYERS = 3
NUM_DECODER_LAYERS = 3
NUM_EPOCHS = 16
transformer = Seq2SeqTransformer(NUM_ENCODER_LAYERS, NUM_DECODER_LAYERS,
                                 EMB_SIZE, SRC_VOCAB_SIZE, TGT_VOCAB_SIZE,
                                 FFN_HID_DIM)
 
for p in transformer.parameters():
    if p.dim() > 1:
        nn.init.xavier_uniform_(p)
 
transformer = transformer.to(device)
 
# 定义损失函数和优化器
loss_fn = torch.nn.CrossEntropyLoss(ignore_index=PAD_IDX)
 
optimizer = torch.optim.Adam(
    transformer.parameters(), lr=0.0001, betas=(0.9, 0.98), eps=1e-9
)
 
# 训练一个epoch的函数
def train_epoch(model, train_iter, optimizer):
    model.train()
    losses = 0
    for idx, (src, tgt) in  enumerate(train_iter):
        src = src.to(device)
        tgt = tgt.to(device)
 
        tgt_input = tgt[:-1, :]
 
        src_mask, tgt_mask, src_padding_mask, tgt_padding_mask = create_mask(src, tgt_input)
 
        logits = model(src, tgt_input, src_mask, tgt_mask,
                                src_padding_mask, tgt_padding_mask, src_padding_mask)
 
        optimizer.zero_grad()
 
        tgt_out = tgt[1:,:]
        loss = loss_fn(logits.reshape(-1, logits.shape[-1]), tgt_out.reshape(-1))
        loss.backward()
 
        optimizer.step()
        losses += loss.item()
    return losses / len(train_iter)
 
# 评估函数
def evaluate(model, val_iter):
    model.eval()
    losses = 0
    for idx, (src, tgt) in (enumerate(valid_iter)):
        src = src.to(device)
        tgt = tgt.to(device)
 
        tgt_input = tgt[:-1, :]
 
        src_mask, tgt_mask, src_padding_mask, tgt_padding_mask = create_mask(src, tgt_input)
 
        logits = model(src, tgt_input, src_mask, tgt_mask,
                              src_padding_mask, tgt_padding_mask, src_padding_mask)
        tgt_out = tgt[1:,:]
        loss = loss_fn(logits.reshape(-1, logits.shape[-1]), tgt_out.reshape(-1))
        losses += loss.item()
    return losses / len(val_iter)

3.6 训练模型

# 训练模型
for epoch in tqdm.tqdm(range(1, NUM_EPOCHS+1)):
    start_time = time.time()
    train_loss = train_epoch(transformer, train_iter, optimizer)
    end_time = time.time()
    print((f"Epoch: {epoch}, Train loss: {train_loss:.3f}, "
          f"Epoch time = {(end_time - start_time):.3f}s"))

3.7 翻译与保存

# 贪婪解码函数
def greedy_decode(model, src, src_mask, max_len, start_symbol):
    src = src.to(device)
    src_mask = src_mask.to(device)
    memory = model.encode(src, src_mask)
    ys = torch.ones(1, 1).fill_(start_symbol).type(torch.long).to(device)
    for i in range(max_len-1):
        memory = memory.to(device)
        memory_mask = torch.zeros(ys.shape[0], memory.shape[0]).to(device).type(torch.bool)
        tgt_mask = (generate_square_subsequent_mask(ys.size(0))
                                    .type(torch.bool)).to(device)
        out = model.decode(ys, memory, tgt_mask)
        out = out.transpose(0, 1)
        prob = model.generator(out[:, -1])
        _, next_word = torch.max(prob, dim = 1)
        next_word = next_word.item()
        ys = torch.cat([ys,
                        torch.ones(1, 1).type_as(src.data).fill_(next_word)], dim=0)
        if next_word == EOS_IDX:
            break
    return ys
 
# 翻译函数
def translate(model, src, src_vocab, tgt_vocab, src_tokenizer):
    model.eval()
    tokens = [BOS_IDX] + [src_vocab.stoi[tok] for tok in src_tokenizer.encode(src, out_type=str)]+ [EOS_IDX]
    num_tokens = len(tokens)
    src = (torch.LongTensor(tokens).reshape(num_tokens, 1) )
    src_mask = (torch.zeros(num_tokens, num_tokens)).type(torch.bool)
    tgt_tokens = greedy_decode(model,  src, src_mask, max_len=num_tokens + 5, start_symbol=BOS_IDX).flatten()
    return " ".join([tgt_vocab.itos[tok] for tok in tgt_tokens]).replace("<bos>", "").replace("<eos>", "")

import pickle
# open a file, where you want to store the data
file = open('en_vocab.pkl', 'wb')
# dump information to that file
pickle.dump(en_vocab, file)
file.close()
file = open('ja_vocab.pkl', 'wb')
pickle.dump(ja_vocab, file)
file.close()
# 保存模型用于推理
torch.save(transformer.state_dict(), 'inference_model')
# 保存模型和检查点以便稍后恢复训练
torch.save({
  'epoch': NUM_EPOCHS,
  'model_state_dict': transformer.state_dict(),
  'optimizer_state_dict': optimizer.state_dict(),
  'loss': train_loss,
  }, 'model_checkpoint.tar')

m0_71034042

关注

26
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
机器翻译——Transformer和注意力机制

Transformer也是在Encoder-Decoder的框架下提出的，在Transformer里面有6个“子Encoder”和6个“子Decoder”，每个子Encoder由一个自注意力机制和一个FNN组成，每个Decoder在子Encoder的基础上多了一个编码注意力。最后一个Encoder的输出会传给每一个Decoder。
复制链接

扫一扫