了解并实现一个Transformer Block

最新推荐文章于 2025-03-24 11:47:10 发布

SmallerFL

最新推荐文章于 2025-03-24 11:47:10 发布

阅读量3.8k

点赞数 13

分类专栏： NLP&机器学习文章标签： transformer 深度学习人工智能 nlp bert gpt

本文链接：https://blog.csdn.net/qq_36803941/article/details/138795224

版权

NLP&机器学习专栏收录该内容

102 篇文章

订阅专栏

文章目录

1. 前言
2. Transformer Block
3. 代码实现
4. 参考

1. 前言

什么是 Transformer？如果希望深入理解可以参考：
《NLP深入学习：大模型背后的Transformer模型究竟是什么？(一)》
《NLP深入学习：大模型背后的Transformer模型究竟是什么？(二)》
本文主要介绍常常听到的 Transformer Block 的概念，以及如何实现一个 Transformer Block。

2. Transformer Block

回顾一下 Transformer 的完整模型：
在这里插入图片描述
我们常说的 Transformer Block 对应图中解码器的上部分。为了具体展示流程，我们假设有一句话：“Every effort moves you” 作为输入，经过蓝色框中的 Transformer Block 之后输出，如下图：

在这里插入图片描述
图中蓝色的部分就是所谓的 Transformer Block。

3. 代码实现

BERT 源码已经实现了 Transformer 的细节，完整源码参考 Pytorch Bert，这里把 Transformer Block 实现的框架贴出来

import torch.nn as nn

from .attention import MultiHeadedAttention
from .utils import SublayerConnection, PositionwiseFeedForward


class TransformerBlock(nn.Module):
    """
    Bidirectional Encoder = Transformer (self-attention)
    Transformer = MultiHead_Attention + Feed_Forward with sublayer connection
    """

    def __init__(self, hidden, attn_heads, feed_forward_hidden, dropout):
        """
        :param hidden: hidden size of transformer
        :param attn_heads: head sizes of multi-head attention
        :param feed_forward_hidden: feed_forward_hidden, usually 4*hidden_size
        :param dropout: dropout rate
        """

        super().__init__()
        self.attention = MultiHeadedAttention(h=attn_heads, d_model=hidden)
        self.feed_forward = PositionwiseFeedForward(d_model=hidden, d_ff=feed_forward_hidden, dropout=dropout)
        self.input_sublayer = SublayerConnection(size=hidden, dropout=dropout)
        self.output_sublayer = SublayerConnection(size=hidden, dropout=dropout)
        self.dropout = nn.Dropout(p=dropout)

    def forward(self, x, mask):
        x = self.input_sublayer(x, lambda _x: self.attention.forward(_x, _x, _x, mask=mask))
        x = self.output_sublayer(x, self.feed_forward)
        return self.dropout(x)