Transformer之self-attention

本文详细介绍了Transformer模型在神经机器翻译中的作用,特别是自注意力机制如何帮助模型理解和处理输入句子,以及其并行化优势。通过实例和矩阵计算解释了编码器和解码器的工作原理。
摘要由CSDN通过智能技术生成

注意力是一个有助于提高神经机器翻译应用程序性能的概念。在这篇文章中,我们将看看Transformer,一个使用注意力来提高这些模型训练速度的模型。Transformer在特定任务中优于谷歌神经机器翻译模型。最大的好处来自于Transformer如何使自己适合并行化。

在这篇文章中,我们将尝试简化一些内容,并逐一介绍概念,希望能够让没有深入了解主题的人更容易理解。

A High-Level Look

让我们首先将模型视为一个单一的黑盒。在机器翻译应用程序中,它将以一种语言获取句子,并以另一种语言输出其翻译。
在这里插入图片描述
打开它,我们看到一个编码组件,一个解码组件,以及它们之间的连接。
在这里插入图片描述
编码组件是一堆编码器(6个编码器堆叠在一起,数字6没有什么神奇的,你可以尝试其他的排列方式)。解码组件是一堆相同数量的解码器。

在这里插入图片描述
编码器在结构上都是相同的(但它们不共享权重)。每一层都被分解成两个子层
在这里插入图片描述
编码器的输入首先通过自注意层,这一层帮助编码器在编码特定单词时查看输入句子中的其他单词。我们将在后面的文章中详细介绍自我关注。

自注意层的输出被馈送到前馈神经网络。完全相同的前馈网络独立应用于每个位置。

解码器有这两个层,但在它们之间是一个注意力层,它帮助解码器专注于输入句子的相关部分(类似于注意力在seq2seq模型中的作用)。
在这里插入图片描述

把张量带入图像

现在我们已经看到了模型的主要组件,让我们开始看看各种向量/张量,以及它们如何在这些组件之间流动,将训练模型的输入转换为输出。

与一般的NLP应用程序一样,我们首先使用嵌入算法将每个输入词转换为向量。
在这里插入图片描述
嵌入只发生在最底部的编码器中。所有编码器的共同抽象是,它们接收一个大小为512的向量列表,在底部的编码器中,这将是单词嵌入,但在其他编码器中,它将是编码器直接在下面的输出。这个列表的大小是我们可以设置的超参数,基本上它是我们训练数据集中最长句子的长度。
在这里插入图片描述
这里我们开始看到Transformer的一个关键属性,即每个位置上的单词在编码器中流经自己的路径。在self-attention层中,这些路径之间存在依赖关系。但是,前馈层没有这些依赖关系,因此,在流经前馈层时,各种路径可以并行执行。

接下来,我们将把示例转换为更短的句子,并查看编码器的每个子层中发生了什么。

Now We’re Encoding!

正如我们已经提到的,编码器接收一个向量列表作为输入。它通过将这些向量传递到 self-attention 来处理这个列表,然后进入前馈神经网络,然后将输出向上发送到下一个编码器。
在这里插入图片描述
每个位置的单词都经过一个 self-attention 的过程。然后,它们分别通过一个前馈神经网络——完全相同的网络,每个向量分别流过它。

Self-Attention at a High Level

不要被我抛出的“self-attention”这个词所迷惑,好像它是每个人都应该熟悉的概念一样。在阅读《Attention is All You Need 》这篇论文之前,我个人从未接触过这个概念。让我们提炼一下它是如何工作的。

假设下面的句子是我们想要翻译的输入句子

”The animal didn’t cross the street because it was too tired”

“it” 在这个句子里指的是什么?它指的是街道还是动物?这对人类来说是一个简单的问题,但对算法来说就不那么简单了。

当模型处理单词“it”时,self-attention 允许它将其与动物联系起来。

当模型处理每个单词(输入序列中的每个位置)时,self-attention 允许它查看输入序列中的其他位置,以寻找有助于对该单词进行更好编码的线索。

如果您熟悉RNN,请考虑维护隐藏状态如何允许RNN将其之前处理的单词/向量的表示与正在处理的当前单词/向量的表示相结合。self-attention 是 Transformer 用来将其他相关单词的“理解”烘焙成我们目前正在处理的单词的方法。
在这里插入图片描述
当我们在编码器#5(堆栈中的顶部编码器)中编码单词“it”时,部分注意力机制集中在“动物”上,并将其部分表示放入“it”的编码中。

一定要查看Tensor2Tensor笔记本,在那里您可以加载Transformer模型,并使用这个交互式可视化来检查它。

Self-Attention in Detail

让我们首先看一下如何使用向量来计算自注意力,然后继续看一下如何使用矩阵来实际实现它。

计算自注意的第一步是从每个编码器的输入向量(在本例中是每个单词的嵌入)中创建三个向量。因此,对于每个单词,我们创建一个 Query 向量、一个 Key 向量和一个 Value 向量。这些向量是通过将嵌入乘以我们在训练过程中训练的三个矩阵来创建的。

请注意,这些新向量的尺寸比嵌入向量小。它们的维度为64,而嵌入和编码器输入/输出矢量的维度为512。它们不必更小,这是一个使多头注意力(大多数)的计算保持不变的架构选择。
在这里插入图片描述
将x1乘以WQ权重矩阵得到q1,即与该单词相关的“query”向量。我们最终为输入句子中的每个单词创建了一个“query”、一个“key”和一个“value”投影。

什么是query、key和value?

它们是对计算和思考注意力有用的抽象概念。一旦你继续阅读下面的注意力是如何计算的,你就会知道所有你需要知道的关于这些向量所扮演的角色。

计算 self-attention 的第二步是计算分数。假设我们正在计算本例中第一个单词“Thinking”的self-attention。我们需要对输入句子中的每个单词与这个单词进行评分。分数决定了当我们在某个位置编码单词时,对输入句子的其他部分的关注程度。

分数是通过将 query vector 与我们正在评分的相应单词的 key vector 进行点积来计算的。因此,如果我们重新处理位置 #1 的单词的自注意,第一个分数将是 q1 和 k1 的点积。第二个分数是 q1 和 k2 的点积。
在这里插入图片描述
第三步和第四步是将分数除以8(论文中使用的key向量维度的平方根)。这将导致更稳定的梯度。这里可能有其他可能的值,但这是默认值),然后通过softmax操作传递结果。Softmax将分数归一化,所以它们都是正的,加起来等于1。
在这里插入图片描述
这个softmax分数决定了每个单词在这个位置表示多少。很明显,在这个位置的单词将有最高的softmax得分,但有时注意与当前单词相关的另一个单词是有用的。

第五步是将每个 value vector 乘以 softmax 分数(准备将它们相加)。这里的直觉是保持我们想要关注的单词的值不变,并淹没不相关的单词(例如,通过将它们乘以像0.001这样的小数字)。

第六步是对加权值向量求和。这就产生了自注意层在这个位置的输出(对于第一个单词)。
在这里插入图片描述
self-attention 计算到此结束。得到的向量是我们可以发送给前馈神经网络的向量。然而,在实际实现中,为了更快地处理,这种计算是以矩阵形式完成的。因此,既然我们已经看到了单词层面计算的直觉,让我们来看看这一点。

Matrix Calculation of Self-Attention

第一步是计算Query、Key和Value矩阵。我们通过将我们的嵌入打包到矩阵X中,并将其乘以我们训练的权重矩阵(WQ, WK, WV)来做到这一点。
在这里插入图片描述
X矩阵中的每一行都对应于输入句子中的一个单词。我们再次看到嵌入向量(图中的512或4个框)和q/k/v矢量(图中的64个或3个框)的大小差异

最后,由于我们处理的是矩阵,我们可以将步骤2到步骤6浓缩成一个公式来计算自关注层的输出。
在这里插入图片描述

Reference

https://jalammar.github.io/illustrated-transformer/

以下是使用PyTorch实现TransformerSelf-Attention的示例代码: ## Self-Attention ```python import torch import torch.nn as nn class SelfAttention(nn.Module): def __init__(self, embed_size, heads): super(SelfAttention, self).__init__() self.embed_size = embed_size self.heads = heads self.head_dim = embed_size // heads assert (self.head_dim * heads == embed_size), "Embed size needs to be divisible by heads" self.values = nn.Linear(self.head_dim, self.head_dim, bias=False) self.keys = nn.Linear(self.head_dim, self.head_dim, bias=False) self.queries = nn.Linear(self.head_dim, self.head_dim, bias=False) self.fc_out = nn.Linear(heads * self.head_dim, embed_size) def forward(self, values, keys, queries, mask): # Get number of training examples N = queries.shape[0] value_len, key_len, query_len = values.shape[1], keys.shape[1], queries.shape[1] # Split embedding into self.heads pieces values = values.reshape(N, value_len, self.heads, self.head_dim) keys = keys.reshape(N, key_len, self.heads, self.head_dim) queries = queries.reshape(N, query_len, self.heads, self.head_dim) # Transpose to get dimensions batch_size * self.heads * seq_len * self.head_dim values = values.permute(0, 2, 1, 3) keys = keys.permute(0, 2, 1, 3) queries = queries.permute(0, 2, 1, 3) # Calculate energy energy = torch.matmul(queries, keys.permute(0, 1, 3, 2)) if mask is not None: energy = energy.masked_fill(mask == 0, float("-1e20")) # Apply softmax to get attention scores attention = torch.softmax(energy / (self.embed_size ** (1/2)), dim=-1) # Multiply attention scores with values out = torch.matmul(attention, values) # Concatenate and linearly transform output out = out.permute(0, 2, 1, 3).reshape(N, query_len, self.heads * self.head_dim) out = self.fc_out(out) return out ``` ## Transformer ```python import torch import torch.nn as nn from torch.nn.modules.activation import MultiheadAttention class TransformerBlock(nn.Module): def __init__(self, embed_size, heads, dropout, forward_expansion): super(TransformerBlock, self).__init__() self.attention = MultiheadAttention(embed_dim=embed_size, num_heads=heads) self.norm1 = nn.LayerNorm(embed_size) self.norm2 = nn.LayerNorm(embed_size) self.feed_forward = nn.Sequential( nn.Linear(embed_size, forward_expansion * embed_size), nn.ReLU(), nn.Linear(forward_expansion * embed_size, embed_size) ) self.dropout = nn.Dropout(dropout) def forward(self, value, key, query, mask): attention_output, _ = self.attention(query, key, value, attn_mask=mask) x = self.dropout(self.norm1(attention_output + query)) forward_output = self.feed_forward(x) out = self.dropout(self.norm2(forward_output + x)) return out class Encoder(nn.Module): def __init__(self, src_vocab_size, embed_size, num_layers, heads, device, forward_expansion, dropout, max_length): super(Encoder, self).__init__() self.embed_size = embed_size self.device = device self.word_embedding = nn.Embedding(src_vocab_size, embed_size) self.position_embedding = nn.Embedding(max_length, embed_size) self.layers = nn.ModuleList([ TransformerBlock(embed_size, heads, dropout, forward_expansion) for _ in range(num_layers) ]) self.dropout = nn.Dropout(dropout) def forward(self, x, mask): N, seq_length = x.shape positions = torch.arange(0, seq_length).expand(N, seq_length).to(self.device) out = self.dropout(self.word_embedding(x) + self.position_embedding(positions)) for layer in self.layers: out = layer(out, out, out, mask) return out class DecoderBlock(nn.Module): def __init__(self, embed_size, heads, forward_expansion, dropout, device): super(DecoderBlock, self).__init__() self.norm = nn.LayerNorm(embed_size) self.attention = MultiheadAttention(embed_size, heads) self.transformer_block = TransformerBlock(embed_size, heads, dropout, forward_expansion) self.dropout = nn.Dropout(dropout) def forward(self, x, value, key, src_mask, trg_mask): attention_output, _ = self.attention(x, x, x, attn_mask=trg_mask) query = self.dropout(self.norm(attention_output + x)) out = self.transformer_block(value, key, query, src_mask) return out class Decoder(nn.Module): def __init__(self, trg_vocab_size, embed_size, num_layers, heads, forward_expansion, dropout, device, max_length): super(Decoder, self).__init__() self.embed_size = embed_size self.device = device self.word_embedding = nn.Embedding(trg_vocab_size, embed_size) self.position_embedding = nn.Embedding(max_length, embed_size) self.layers = nn.ModuleList([ DecoderBlock(embed_size, heads, forward_expansion, dropout, device) for _ in range(num_layers) ]) self.fc_out = nn.Linear(embed_size, trg_vocab_size) self.dropout = nn.Dropout(dropout) def forward(self, x, enc_out, src_mask, trg_mask): N, seq_length = x.shape positions = torch.arange(0, seq_length).expand(N, seq_length).to(self.device) x = self.dropout(self.word_embedding(x) + self.position_embedding(positions)) for layer in self.layers: x = layer(x, enc_out, enc_out, src_mask, trg_mask) out = self.fc_out(x) return out ``` 这些代码可以用于实现TransformerSelf-Attention模型。但这只是示例,你需要根据你的数据和任务来调整这些代码中的各种超参数和结构。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值