[自然语言处理nlp(一)] Transformer运算过程与代码解析

最新推荐文章于 2024-08-15 19:15:45 发布

Exir-lxr

最新推荐文章于 2024-08-15 19:15:45 发布

阅读量929

点赞数 1

文章标签：深度学习自然语言处理 pytorch

本文链接：https://blog.csdn.net/qq_31964037/article/details/105326587

版权

本文深入解析Transformer模型的运算过程，包括Encoder、Decoder、Attention和Feed-Forward Networks。通过分析论文中的结构图，阐述了每个模块的功能和代码实现，特别是MultiHeadAttention的计算细节。此外，介绍了模型的整体结构，强调了Decoder中特有的MaskedMultiHeadAttention以及其与Encoder的区别。

摘要由CSDN通过智能技术生成

近期开始学习NLP，边学习边整理。

本文代码主要来自地址1，结合地址2里描述的tensor大小进行理解，从论文图片开始，一步一步按照图片解析每个模块的运算过程。
在这里插入图片描述

整体结构

上图的结构可以分为编码器与解码器，可以形成以下代码。图中张量大小如下：
Inputs [batch, 最大的句长]。此时，Inputs[0, 1]表示批数据里第一句子的第二个单词。
经过Input Embedding与Positional Encoding [batch, 最大的句长, 词向量长度]。这里将每个单词映射为了词向量，因此多了一个维度。

class EncoderDecoder(nn.Module):
    """
    A standard Encoder-Decoder architecture. Base for this and many 
    other models.
    """
    def __init__(self, encoder, decoder, src_embed, tgt_embed, generator):
        super(EncoderDecoder, self).__init__()
        self.encoder = encoder
        self.decoder = decoder
        self.src_embed = src_embed
        self.tgt_embed = tgt_embed
        self.generator = generator
        
    def forward(self, src, tgt, src_mask, tgt_mask):
        "Take in and process masked src and target sequences."
        return self.decode(self.encode(src, src_mask), src_mask,
                            tgt, tgt_mask)
    
    def encode(self, src, src_mask):
        return self.encoder(self.src_embed(src), src_mask)
    
    def decode(self, memory, src_mask, tgt, tgt_mask):
        return self.decoder(self.tgt_embed(tgt), memory, src_mask, tgt_mask)

class Generator(nn.Module):
    "Define standard linear + softmax generation step."
    def __init__(self, d_model, vocab):
        super(Generator, self).__init__()
        self.proj = nn.Linear(d_model, vocab)

    def forward(self, x):
        return F.log_softmax(self.proj(x), dim=-1)

Encoder

在这里插入图片描述
解码器Encoder如上图所示，由N=6个相同的层组成

def clones(module, N):
    "Produce N identical layers."
    return nn.ModuleList([copy.deepcopy(module) for _ in range(N)])

class Encoder(nn.Module

最低0.47元/天解锁文章

Exir-lxr

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫