解码Transformer：自注意力机制与编解码器机制详述与代码实现

七七Seven～

于 2024-08-14 10:49:05 发布

阅读量375

点赞数 13

文章标签：人工智能深度学习知识图谱 langchain 搜索引擎

本文链接：https://blog.csdn.net/2401_84205765/article/details/141184841

版权

本文全面探讨了Transformer及其衍生模型，深入分析了自注意力机制、编码器和解码器结构，并列举了其编码实现加深理解，最后列出基于Transformer的各类模型如BERT、GPT等。文章旨在深入解释Transformer的工作原理，并展示其在人工智能领域的广泛影响。

作者 TechLead，拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦机器人智能实验室成员，阿里云认证的资深架构师，项目管理专业人士，上亿营收AI产品研发负责人

一、 Transformer的出现背景

file Transformer的出现标志着自然语言处理领域的一个里程碑。以下将从技术挑战、自注意力机制的兴起，以及Transformer对整个领域的影响三个方面来全面阐述其背景。

1.1 技术挑战与先前解决方案的局限性

RNN和LSTM

早期的序列模型，如RNN和LSTM，虽然在某些场景下表现良好，但在实际操作中遇到了许多挑战：

计算效率：由于RNN的递归结构，它必须逐个处理序列中的元素，从而使计算无法并行化。
长距离依赖问题：RNN难以捕获序列中的长距离依赖，而LSTM虽有所改善，但仍不完美。

卷积神经网络（CNN）在序列处理中的尝试

卷积神经网络（CNN）通过使用多层卷积可以捕获局部依赖，并在某些方面改善了长距离依赖的捕获。但是，CNN的固定卷积窗口大小限制了其能捕获的依赖范围，并且对全局依赖的处理不够灵活。

1.2 自注意力机制的兴起

自注意力机制解决了上述挑战：

并行化计算：通过同时观察序列中的所有元素，自注意力机制允许模型并行处理整个序列。
捕获长距离依赖：自注意力机制能有效捕获序列中的长距离依赖，无论距离有多远。

这一机制的引入，让Transformer模型成为了一项技术突破。

1.3 Transformer的革命性影响

Transformer的出现对整个领域产生了深远影响：

设立新标准：在多个NLP任务中，Transformer都设立了新的性能基准。
推动新研究和应用：Transformer的结构推动了许多新的研究方向和实际应用，如BERT、GPT等先进模型的诞生。
跨领域影响：除了自然语言处理，Transformer还对其他领域如生物信息学、图像处理等产生了影响。

二、自注意力机制

file

2.1 概念和工作原理

自注意力机制是一种能够捕捉序列内部元素之间关系的技术。它计算序列中每个元素与其他元素的相似度，从而实现全局依赖关系的捕捉。

权重计算：通过计算序列中每个元素之间的相似性，为每个元素分配不同的权重。
全局依赖捕获：能够捕获序列中任意距离的依赖关系，突破了先前模型的局限。

元素的权重计算

file

Query、Key、Value结构：序列中的每个元素被表示为Query、Key、Value三个部分。
相似度度量：使用Query和Key的点积计算元素间的相似度。
权重分配：通过Softmax函数将相似度转换为权重。

例如，考虑一个元素的权重计算：

import torch
import torch.nn.functional as F

# Query, Key
query = torch.tensor([1, 0.5])
key = torch.tensor([[1, 0], [0, 1]])

# 相似度计算
similarity = query.matmul(key)

# 权重分配
weights = F.softmax(similarity, dim=-1)
# 输出：tensor([0.7311, 0.2689])

加权求和

自注意力机制利用计算的权重对Value进行加权求和，从而得到每个元素的新表示。

value = torch.tensor([[1, 2], [3, 4]])
output = weights.matmul(value)
# 输出：tensor([1.7311, 2.7311])

自注意力与传统注意力的区别

自注意力机制与传统注意力的主要区别在于：

自我参照：自注意力机制是序列自身对自身的注意，而不是对外部序列。
全局依赖捕获：不受局部窗口限制，能捕获序列中任意距离的依赖关系。

计算效率

自注意力机制能够并行处理整个序列，不受序列长度的限制，从而实现了显著的计算效率。

并行化优势：自注意力计算可同时进行，提高了训练和推理速度。

在Transformer中的应用

在Transformer中，自注意力机制是关键组成部分：

多头注意力：通过多头注意力，模型能同时学习不同的依赖关系，增强了模型的表现力。
权重可视化：自注意力权重可被用来解释模型的工作方式，增加了可解释性。

跨领域应用

自注意力机制的影响远超自然语言处理：

图像处理：在图像分割和识别等任务中的应用。
语音识别：帮助捕获语音信号中的时间依赖。

未来趋势和挑战

虽然自注意力取得了卓越的成功，但仍有研究空间：

计算和存储需求：高复杂度带来了内存和计算挑战。
可解释性和理论理解：对于注意力机制的深入理解还有待进一步探索。

2.2 计算过程

file

输入表示

自注意力机制的输入是一个序列，通常由一组词向量或其他元素组成。这些元素会被分别转换为Query、Key、Value三部分。

import torch.nn as nn

embedding_dim = 64
query_layer = nn.Linear(embedding_dim, embedding_dim)
key_layer = nn.Linear(embedding_dim, embedding_dim)
value_layer = nn.Linear(embedding_dim, embedding_dim)

相似度计算

通过Query和Key的点积计算，得到各元素之间的相似度矩阵。

import torch

embedding_dim = 64

# 假设一个序列包含三个元素
sequence = torch.rand(3, embedding_dim)

query = query_layer(sequence)
key = key_layer(sequence)
value = value_layer(sequence)

def similarity(query, key):
    return torch.matmul(query, key.transpose(-2, -1)) / (embedding_dim ** 0.5)

权重分配

将相似度矩阵归一化为权重。

def compute_weights(similarity_matrix):
    return torch.nn.functional.softmax(similarity_matrix, dim=-1)

加权求和

利用权重矩阵对Value进行加权求和，得到输出。

def weighted_sum(weights, value):
    return torch.matmul(weights, value)

多头自注意力

在实际应用中，通常使用多头注意力来捕获序列中的多方面信息。

class MultiHeadAttention(nn.Module):
    def __init__(self, embedding_dim, num_heads):
        super(MultiHeadAttention, self).__init__()
        self.num_heads = num_heads
        self.head_dim = embedding_dim // num_heads
        
        self.query_layer = nn.Linear(embedding_dim, embedding_dim)
        self.key_layer = nn.Linear(embedding_dim, embedding_dim)
        self.value_layer = nn.Linear(embedding_dim, embedding_dim)
        self.fc_out = nn.Linear(embedding_dim, embedding_dim)

    def forward(self, query, key, value):
        N = query.shape[0]
        query_len, key_len, value_len = query.shape[1], key.shape[1], value.shape[1]

        # 拆分多个头
        queries = self.query_layer(query).view(N, query_len, self.num_heads, self.head_dim)
        keys = self.key_layer(key).view(N, key_len, self.num_heads, self.head_dim)
        values = self.value_layer(value).view(N, value_len, self.num_heads, self.head_dim)

        # 相似度计算
        similarity_matrix = torch.einsum("nqhd,nkhd->nhqk", [queries, keys]) / (self.head_dim ** 0.5)

        # 权重分配
        weights = torch.nn.functional.softmax(similarity_matrix, dim=-1)

        # 加权求和
        attention = torch.einsum("nhql,nlhd->nqhd", [weights, values])

        # 串联多个头的输出
        attention = attention.permute(0, 2, 1, 3).contiguous().view(N, query_len, embedding_dim)

        # 通过线性层整合输出
        output = self.fc_out(attention)

        return output

三、Transformer的结构

file

3.1 编码器（Encoder）

file 编码器是Transformer的核心组成部分之一，它的主要任务是理解和处理输入数据。编码器通过组合自注意力机制、前馈神经网络、规范化层和残差连接，构建了一个强大的序列到序列的映射工具。自注意力机制使得模型能够捕获序列内部的复杂关系，前馈网络则提供了非线性计算能力。规范化层和残差连接则有助于稳定训练过程。以下是编码器的各个组件和它们的详细描述。

3.1.1 自注意力层

编码器的第一部分是自注意力层。如之前所述，自注意力机制使模型能够关注输入序列中的所有位置，并根据这些信息来编码每个位置。

class SelfAttentionLayer(nn.Module):
    def __init__(self, embedding_dim, num_heads):
        super(SelfAttentionLayer, self).__init__()
        self.multi_head_attention = MultiHeadAttention(embedding_dim, num_heads)
    
    def forward(self, x):
        return self.multi_head_attention(x, x, x)

3.1.2 前馈神经网络

自注意力层后，编码器包括一个前馈神经网络（Feed-Forward Neural Network, FFNN）。这个网络由两个线性层和一个激活函数组成。

class FeedForwardLayer(nn.Module):
    def __init__(self, embedding_dim, ff_dim):
        super(FeedForwardLayer, self).__init__()
        self.fc1 = nn.Linear(embedding_dim, ff_dim)
        self.fc2 = nn.Linear(ff_dim, embedding_dim)
        self.relu = nn.ReLU()
    
    def forward(self, x):
        return self.fc2(self.relu(self.fc1(x)))

3.1.3 规范化层

为了稳定训练和加快收敛速度，每个自注意力层和前馈层后面都有一个规范化层（Layer Normalization）。

layer_norm = nn.LayerNorm(embedding_dim)

3.1.4 残差连接

Transformer还使用了残差连接，使得每一层的输出都与输入相加。这有助于防止梯度消失和爆炸。

output = layer_norm(self_attention(x) + x)
output = layer_norm(feed_forward(output) + output)

3.1.5 编码器的完整结构

最终的编码器由N个这样的层堆叠而成。

class Encoder(nn.Module):
    def __init__(self, num_layers, embedding_dim, num_heads, ff_dim):
        super(Encoder, self).__init__()
        self.layers = nn.ModuleList([
            nn.Sequential(
                SelfAttentionLayer(embedding_dim, num_heads),
                nn.LayerNorm(embedding_dim),
                FeedForwardLayer(embedding_dim, ff_dim),
                nn.LayerNorm(embedding_dim)
            )
            for _ in range(num_layers)
        ])

    def forward(self, x):
        for layer in self.layers:
            x = layer(x)
        return x

3.2 解码器（Decoder）

file 解码器负责根据编码器的输出和先前生成的部分输出序列生成目标序列。解码器采用了与编码器类似的结构，但增加了掩码自注意力层和编码器-解码器注意力层，以生成目标序列。掩码确保解码器仅使用先前的位置生成每个位置的输出。编码器-解码器注意力层则使解码器能够使用编码器的输出。通过这种结构，解码器能够生成符合上下文和源序列信息的目标序列，为许多复杂的序列生成任务提供了强大的解决方案。下面是解码器的主要组成部分和它们的工作原理。

3.2.1 自注意力层

解码器的第一部分是掩码自注意力层。该层与编码器中的自注意力层相似，但是添加了一个掩码，以防止位置关注其后的位置。

def mask_future_positions(size):
    mask = (torch.triu(torch.ones(size, size)) == 1).transpose(0, 1)
    return mask.float().masked_fill(mask == 0, float('-inf')).masked_fill(mask == 1, float(0.0))

mask = mask_future_positions(sequence_length)

3.2.2 编码器-解码器注意力层

解码器还包括一个编码器-解码器注意力层，允许解码器关注编码器的输出。

class EncoderDecoderAttention(nn.Module):
    def __init__(self, embedding_dim, num_heads):
        super(EncoderDecoderAttention, self).__init__()
        self.multi_head_attention = MultiHeadAttention(embedding_dim, num_heads)
    
    def forward(self, queries, keys, values):
        return self.multi_head_attention(queries, keys, values)

3.2.3 前馈神经网络

解码器也有一个前馈神经网络，结构与编码器中的前馈神经网络相同。

3.2.4 规范化层和残差连接

这些组件也与编码器中的相同，并在每个子层之后使用。

3.2.5 解码器的完整结构

解码器由自注意力层、编码器-解码器注意力层、前馈神经网络、规范化层和残差连接组成，通常包括N个这样的层。

class Decoder(nn.Module):
    def __init__(self, num_layers, embedding_dim, num_heads, ff_dim):
        super(Decoder, self).__init__()
        self.layers = nn.ModuleList([
            nn.Sequential(
                SelfAttentionLayer(embedding_dim, num_heads, mask=mask),
                nn.LayerNorm(embedding_dim),
                EncoderDecoderAttention(embedding_dim, num_heads),
                nn.LayerNorm(embedding_dim),
                FeedForwardLayer(embedding_dim, ff_dim),
                nn.LayerNorm(embedding_dim)
            )
            for _ in range(num_layers)
        ])

    def forward(self, x, encoder_output):
        for layer in self.layers:
            x = layer(x, encoder_output)
        return x

四、以Transformer为基础的各类模型

file

以Transformer为基础的模型不断涌现，为各种NLP和其他序列处理任务提供了强大的工具。从生成文本到理解上下文，这些模型都具有不同的优势和特点，共同推动了自然语言处理领域的快速发展。这些模型的共同之处在于，它们都采用了原始Transformer的核心概念，并在此基础上做了各种创新和改进。未来可期望更多以Transformer为基础的模型不断涌现，进一步拓宽其应用范围和影响力。

4.1 BERT（Bidirectional Encoder Representations from Transformers）

BERT是一种基于Transformer编码器的模型，用于生成上下文相关的词嵌入。不同于传统的词嵌入方法，BERT能够理解单词在句子中的具体含义。

主要特点

双向训练，捕获上下文信息
大量预训练，适用于多种下游任务

4.2 GPT（Generative Pre-trained Transformer）

与BERT不同，GPT侧重于使用Transformer解码器生成文本。GPT被预训练为语言模型，并可微调用于各种生成任务。

主要特点

从左到右生成文本
在多种生成任务上具有很高的灵活性

4.3 Transformer-XL（Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context）

Transformer-XL通过引入可重复使用的记忆机制，解决了原始Transformer模型的上下文长度限制问题。

主要特点

更长的上下文依赖
记忆机制提高效率

4.4 T5（Text-to-Text Transfer Transformer）

T5模型将所有NLP任务都视为文本到文本的转换问题。这种统一的框架使得在不同的任务之间转换变得非常容易。

主要特点

通用性，适用于多种NLP任务
简化了任务特定架构的需求

4.5 XLNet

XLNet是一种通用自回归预训练模型，结合了BERT的双向能力和GPT的自回归优势。

主要特点

双向和自回归结合
提供了一种有效的预训练方法

4.6 DistilBERT

DistilBERT是BERT模型的轻量级版本，保留了大部分性能，但模型大小显著减小。

主要特点

更少的参数和计算量
适用于资源有限的场景

4.7 ALBERT（A Lite BERT）

ALBERT是对BERT的另一种优化，减少了参数数量，同时改善了训练速度和模型性能。

主要特点

参数共享
更快的训练速度

五、总结

Transformer自从被引入以来，已经深刻改变了自然语言处理和许多其他序列处理任务的面貌。通过其独特的自注意力机制，Transformer克服了以前模型的许多局限性，实现了更高的并行化和更灵活的依赖捕获。

在本文中，我们详细探讨了Transformer的以下方面：

出现背景：了解了Transformer是如何从RNN和CNN的限制中诞生的，以及它是如何通过自注意力机制来处理序列的。
自注意力机制：详细解释了自注意力机制的计算过程，以及如何允许模型在不同位置之间建立依赖关系。
Transformer的结构：深入了解了Transformer的编码器和解码器的结构，以及各个组件如何协同工作。
基于Transformer的各类模型：探讨了一系列以Transformer为基础的模型，如BERT、GPT、T5等，了解了它们的特点和应用。

Transformer不仅推动了自然语言处理领域的研究和应用，还在其他领域，如生物信息学、图像分析等，展示了其潜力。现代许多最先进的模型都以Transformer为基础，利用其灵活、高效的结构解决了先前难以解决的问题。

今后，我们可以期待Transformer和其衍生模型继续在更广泛的领域中扮演重要角色，不断创新和推动人工智能领域的发展。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

本文转自 https://blog.csdn.net/zhishi0000/article/details/141086215?spm=1001.2014.3001.5501，如有侵权，请联系删除。

七七Seven～

关注

13
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
解码Transformer：自注意力机制与编解码器机制详述与代码实现

Transformer自从被引入以来，已经深刻改变了自然语言处理和许多其他序列处理任务的面貌。通过其独特的自注意力机制，Transformer克服了以前模型的许多局限性，实现了更高的并行化和更灵活的依赖捕获。出现背景：了解了Transformer是如何从RNN和CNN的限制中诞生的，以及它是如何通过自注意力机制来处理序列的。自注意力机制：详细解释了自注意力机制的计算过程，以及如何允许模型在不同位置之间建立依赖关系。Transformer的结构。
复制链接

扫一扫