Transformer Pytorch代码实现以及理解

Dongxue_NLP

已于 2022-03-27 20:36:42 修改

阅读量2.5k

点赞数 3

分类专栏：自然语言处理NLP 文章标签：人工智能 pytorch transformer nlp 深度学习

于 2022-03-27 16:03:34 首次发布

本文链接：https://blog.csdn.net/dongxueb/article/details/123764714

版权

Transformer结构
论文：Attention is all you need
Transformer模型是2017年Google公司在论文《Attention is All You Need》中提出的。在Transformer的基础上，提出了预训练语言BERT模型，成功在多项NLP任务中取得领先的结果。
所以，学习Transformer模型也是以后能够掌握BERT模型的前提，基于此，对于Transformer模型的理论学习在此不展开赘述，将学习的代码以及重要的代码解读附在代码上，务必在细微处也通透了解，达到知其然还能编其然的效果。写此博客，主要是理清知识脉络并且理解原始代码。本文是对近期关于Transformer论文、相关文章、代码进行学习后的知识梳理，仅为自己学习交流之用。因笔者精力有限，如果文中因引用了某些文章观点未标出处还望作者海涵，也希望各位一起学习的读者对文中不恰当的地方进行批评指正。

Transformer模型结构

该图引用于论文《Attention is All You Need》

上图是Transformer模型的结构图。从图中，我们可以看出模型宏观上可分为两个大模块。一个是编码器，一个是解码器。
这有点类似于NLP中的seq2seq结构。在下边的代码中将以翻译为例子展示TRM的Pytorch代码部分，对于难点以及要点在代码中有详细的解释

## from https://github.com/graykode/nlp-tutorial/tree/master/5-1.Transformer

import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import matplotlib.pyplot as plt
import math


def make_batch(sentences):
    input_batch = [[src_vocab[n] for n in sentences[0].split()]]
    output_batch = [[tgt_vocab[n] for n in sentences[1].split()]]
    target_batch = [[tgt_vocab[n] for n in sentences[2].split()]]
    return torch.LongTensor(input_batch), torch.LongTensor(output_batch), torch.LongTensor(target_batch)



## 10
def get_attn_subsequent_mask(seq):
    """
    seq: [batch_size, tgt_len]
    """
    attn_shape = [seq.size(0), seq.size(1), seq.size(1)]
    # attn_shape: [batch_size, tgt_len, tgt_len]
    subsequence_mask = np.triu(np.ones(attn_shape), k=1)  # 生成一个上三角矩阵
    subsequence_mask = torch.from_numpy(subsequence_mask).byte()
    return subsequence_mask  # [batch_size, tgt_len, tgt_len]


## 7. ScaledDotProductAttention
class ScaledDotProductAttention(nn.Module):
    def __init__(self):
        super(ScaledDotProductAttention, self).__init__()

    def forward(self, Q, K, V, attn_mask):
        ## 输入进来的维度分别是 [batch_size x n_heads x len_q x d_k]  K： [batch_size x n_heads x len_k x d_k]  V: [batch_size x n_heads x len_k x d_v]
        ##首先经过matmul函数得到的scores形状是 : [batch_size x n_heads x len_q x len_k]
        scores = torch.matmul(Q, K.transpose(-1, -2)) / np.sqrt(d_k)

        ## 然后关键词地方来了，下面这个就是用到了我们之前重点讲的attn_mask，把被mask的地方置为无限小，softmax之后基本就是0，对q的单词不起作用
        scores.masked_fill_(attn_mask, -1e9) # Fills elements of self tensor with value where mask is one.
        attn = nn.Softmax(dim=-1)(scores)#softmax函数按横行来做
        context = torch.matmul(attn, V)
        return context, attn


## 6. MultiHeadAttention
class MultiHeadAttention(nn.Module):
    def __init__(self):
        super(MultiHeadAttention, self).__init__()
        ## 输入进来的QKV是相等的，我们会使用映射linear做一个映射得到参数矩阵Wq, Wk,Wv
        self.W_Q = nn.Linear(d_model, d_k * n_heads)
        self.W_K = nn.Linear(d_model, d_k * n_heads)
        self.W_V = nn.Linear(d_model, d_v * n_heads)
        self.linear = nn.Linear(n_heads * d_v, d_model)
        self.layer_norm = nn.LayerNorm(d_model)

    def forward(self, Q, K, V, attn_mask):

        ## 这个多头分为