Task3：基于Transformer解决机器翻译任务 #Datawhale AI夏令营

最新推荐文章于 2024-08-31 23:13:29 发布

kweakkk

最新推荐文章于 2024-08-31 23:13:29 发布

阅读量152

点赞数 3

文章标签：人工智能 transformer 机器翻译

本文链接：https://blog.csdn.net/kweakkk/article/details/140578972

版权

本期笔记为学习task3时的梳理：

理清逻辑：这一期引入了transformer架构来解决机器翻译的问题，我个人感觉通俗点说这个架构的逻辑有点像我们做英文阅读理解的时候，即使我们并不能明白文章中的每一个单词，但只要我们掌握了部分关键词就能大概翻译出他们的意思。同理，transformer弃了循环结构，并完全通过注意力机制完成对源语言序列和目标语言序列全局依赖的建模。在抽取每个单词的上下文特征时，Transformer 通过自注意力机制（self-attention）衡量上下文中每一个单词对当前单词的重要程度。因此，我认为这两者是有所共通的。

1.环境配置：和task2一样，除了jieba，sacrebleu和torchtext这三个包，还要安装spacy来分词断句，我感觉如果魔塔平台太慢的话可以转用Google colab来跑。

!pip install torchtext    
!pip install jieba
!pip install sacrebleu
!python -m spacy download en_core_web_sm

2.数据预处理：define一些功能来读取数据，以及进行分词和构建词汇表。

3.模型训练：和task2用的seq2seq不同，这次替换成了transformer，主要是定义了位置编码，然后导入transformer来使用

class PositionalEncoding(nn.Module):
    def __init__(self, d_model, dropout=0.1, max_len=5000):
        super(PositionalEncoding, self).__init__()
        self.dropout = nn.Dropout(p=dropout)

        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
        pe[:, 0::2] = torch.sin(position * div_term)
        pe[:, 1::2] = torch.cos(position * div_term)
        pe = pe.unsqueeze(0).transpose(0, 1)
        self.register_buffer('pe', pe)

    def forward(self, x):
        x = x + self.pe[:x.size(0), :]
        return self.dropout(x)

class TransformerModel(nn.Module):
    def __init__(self, src_vocab, tgt_vocab, d_model, nhead, num_encoder_layers, num_decoder_layers, dim_feedforward, dropout):
        super(TransformerModel, self).__init__()
        self.transformer = nn.Transformer(d_model, nhead, num_encoder_layers, num_decoder_layers, dim_feedforward, dropout)
        self.src_embedding = nn.Embedding(len(src_vocab), d_model)
        self.tgt_embedding = nn.Embedding(len(tgt_vocab), d_model)
        self.positional_encoding = PositionalEncoding(d_model, dropout)
        self.fc_out = nn.Linear(d_model, len(tgt_vocab))
        self.src_vocab = src_vocab
        self.tgt_vocab = tgt_vocab
        self.d_model = d_model

    def forward(self, src, tgt):
        # 调整src和tgt的维度
        src = src.transpose(0, 1)  # (seq_len, batch_size)
        tgt = tgt.transpose(0, 1)  # (seq_len, batch_size)

        src_mask = self.transformer.generate_square_subsequent_mask(src.size(0)).to(src.device)
        tgt_mask = self.transformer.generate_square_subsequent_mask(tgt.size(0)).to(tgt.device)

        src_padding_mask = (src == self.src_vocab['<pad>']).transpose(0, 1)
        tgt_padding_mask = (tgt == self.tgt_vocab['<pad>']).transpose(0, 1)

        src_embedded = self.positional_encoding(self.src_embedding(src) * math.sqrt(self.d_model))
        tgt_embedded = self.positional_encoding(self.tgt_embedding(tgt) * math.sqrt(self.d_model))

        output = self.transformer(src_embedded, tgt_embedded,
                                  src_mask, tgt_mask, None, src_padding_mask, tgt_padding_mask, src_padding_mask)
        return self.fc_out(output).transpose(0, 1)

训练的时候可以调大epoch看能不能提高一些分数

# 主训练循环
def train_model(model, train_iterator, valid_iterator, optimizer, criterion, N_EPOCHS=10, CLIP=1, save_path = '../model/best-model_transformer.pt'):
    best_valid_loss = float('inf')
    
    for epoch in range(N_EPOCHS):
        start_time = time.time()
        
        #print(f"Starting Epoch {epoch + 1}")
        train_loss = train(model, train_iterator, optimizer, criterion, CLIP)
        valid_loss = evaluate(model, valid_iterator, criterion)
        
        end_time = time.time()
        epoch_mins, epoch_secs = epoch_time(start_time, end_time)
        
        if valid_loss < best_valid_loss:
            best_valid_loss = valid_loss
            torch.save(model.state_dict(), save_path)
        
        print(f'Epoch: {epoch+1:02} | Time: {epoch_mins}m {epoch_secs}s')
        print(f'\tTrain Loss: {train_loss:.3f} | Train PPL: {math.exp(train_loss):7.3f}')
        print(f'\t Val. Loss: {valid_loss:.3f} |  Val. PPL: {math.exp(valid_loss):7.3f}')

4.最后导出结果

kweakkk

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Task3：基于Transformer解决机器翻译任务 #Datawhale AI夏令营

理清逻辑：这一期引入了transformer架构来解决机器翻译的问题，我个人感觉通俗点说这个架构的逻辑有点像我们做英文阅读理解的时候，即使我们并不能明白文章中的每一个单词，但只要我们掌握了部分关键词就能大概翻译出他们的意思。1.环境配置：和task2一样，除了jieba，sacrebleu和torchtext这三个包，还要安装spacy来分词断句，我感觉如果魔塔平台太慢的话可以转用Google colab来跑。2.数据预处理：define一些功能来读取数据，以及进行分词和构建词汇表。
复制链接

扫一扫