二、核心组件
下面,我们来详细描述一下 Transformer 中的核心组件。
1. 输入嵌入
输入嵌入是将输入文本序列中的单词或符号映射为高维向量的过程。
在 Transformer 模型中,文本首先被标记化为单词或子词,然后每个标记被映射为一个固定长度的向量。
这些向量通常是通过查找嵌入矩阵(embedding matrix)得到的,该矩阵是在训练过程中学习得到的。
输入嵌入的作用是将离散的符号转换为连续的、可以直接输入到神经网络中的向量表示,使得模型能够处理和理解输入数据。
2. 位置编码
位置编码(Positional Encoding)是 Transformer 模型中的一个关键组件,用于在模型中引入序列位置信息。
由于 Transformer 模型不使用传统的循环神经网络(RNN)结构,它无法像这些传统模型那样通过其结构直接捕获输入数据的位置信息。因此,需要通过位置编码来显式地提供序列中的位置信息。
位置编码通常使用正弦和余弦函数来生成。
3. 自主力机制
自注意力机制是 Transformer 的核心创新之一。
它允许模型在计算某个位置的输出时,考虑输入序列中所有其他位置的信息。
具体地,对于每个输入位置,自注意力机制会计算该位置与其他所有位置的相似度(通过点积操作),并使用这些相似度作为权重来加权求和其他位置的输入表示。
自注意力机制的关键步骤包括:
-
Query、Key、Value 向量的生成
对输入嵌入进行线性变换,生成三个不同的向量,即查询向量(Query)、键向量(Key)和值向量(Value)。
4. 多头注意力机制
多头注意力机制是对自注意力机制的扩展。
通过并行地执行多次自注意力机制,可以让模型从不同的角度(即不同的“头”)学习输入序列中的信息。
每个头都有自己独立的查询、键和值的线性变换,然后分别执行自注意力操作,最后将这些头的输出进行拼接,并通过线性变换生成最终的多头注意力输出。
具体来说,假设有 h 个注意力头,每个头分别计算如下:
多头注意力机制的优点在于它能够捕捉到不同的语义关系和特征,从而增强模型的表达能力。
5. 前馈神经网络
每个编码器和解码器层中的前馈神经网络是一个两层的全连接神经网络,作用是对每个位置的表示进行独立的非线性变换。
6. 层归一化和残差连接
为了防止深层网络的梯度消失问题,Transformer 在每个子层后使用了残差连接,并紧跟层归一化。
7. 掩码多头自注意力
在标准的多头注意力机制中,每个位置的查询(Query)会与所有位置的键(Key)进行点积计算,得到注意力分数,然后与值(Value)加权求和,生成最终的输出。
然而,在解码器中,生成序列时不能访问未来的信息。因此需要使用掩码(Mask)机制来屏蔽掉未来位置的信息。
具体来说,在计算注意力得分时,对未来的位置进行屏蔽,将这些位置的得分设为负无穷大,使得 Softmax 归一化后的权重为零。
8. 编码器-解码器多头注意力
在解码器中的 Multi-head Attention 也叫做 Encoder-Decoder Attention,它的 Query 来自解码器的 self-attention,而 Key、Value 则是编码器的输出。
三、案例代码
下面是一个使用 PyTorch 实现 Transformer 模型的简单示例代码。
该示例展示了如何构建一个基本的 Transformer 模型并使用它进行序列到序列的任务,例如机器翻译。
import torch
import torch.nn as nn
import torch.optim as optim
import math
class PositionalEncoding(nn.Module):
def __init__(self, d_model, max_len=5000):
super(PositionalEncoding, self).__init__()
pe = torch.zeros(max_len, d_model)
position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))
pe[:, 0::2] = torch.sin(position * div_term)
pe[:, 1::2] = torch.cos(position * div_term)
pe = pe.unsqueeze(0).transpose(0, 1)
self.register_buffer('pe', pe)
def forward(self, x):
x = x + self.pe[:x.size(0), :]
return x
class TransformerModel(nn.Module):
def __init__(self, input_dim, output_dim, d_model=512, nhead=8, num_encoder_layers=6, dim_feedforward=2048, dropout=0.1):
super(TransformerModel, self).__init__()
self.model_type = 'Transformer'
self.embedding = nn.Embedding(input_dim, d_model)
self.pos_encoder = PositionalEncoding(d_model)
encoder_layers = nn.TransformerEncoderLayer(d_model, nhead, dim_feedforward, dropout)
self.transformer_encoder = nn.TransformerEncoder(encoder_layers, num_encoder_layers)
self.d_model = d_model
self.decoder = nn.Linear(d_model, output_dim)
self.init_weights()
def init_weights(self):
initrange = 0.1
self.embedding.weight.data.uniform_(-initrange, initrange)
self.decoder.bias.data.zero_()
self.decoder.weight.data.uniform_(-initrange, initrange)
def forward(self, src, src_mask):
src = self.embedding(src) * math.sqrt(self.d_model)
src = self.pos_encoder(src)
output = self.transformer_encoder(src, src_mask)
output = self.decoder(output)
return output
def generate_square_subsequent_mask(sz):
mask = (torch.triu(torch.ones(sz, sz)) == 1).transpose(0, 1)
mask = mask.float().masked_fill(mask == 0, float('-inf')).masked_fill(mask == 1, float(0.0))
return mask
# Example usage:
input_dim = 1000 # Vocabulary size
output_dim = 1000 # Output size
seq_length = 10 # Length of the sequence
# Create the model
model = TransformerModel(input_dim=input_dim, output_dim=output_dim)
# Example data
src = torch.randint(0, input_dim, (seq_length, 32)) # (sequence_length, batch_size)
src_mask = generate_square_subsequent_mask(seq_length)
# Forward pass
output = model(src, src_mask)
print(output.shape) # Expected output: [sequence_length, batch_size, output_dim]
# Define a simple loss and optimizer for training
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)
# Example training loop
for epoch in range(10): # Number of epochs
optimizer.zero_grad()
output = model(src, src_mask)
loss = criterion(output.view(-1, output_dim), src.view(-1))
loss.backward()
optimizer.step()
print(f"Epoch {epoch+1}, Loss: {loss.item()}")
最后分享
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型面试题
面试,不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费
】
如有侵权,请联系删除。