Attention is all your need
假设我们的模型知道从训练数据集中学习的 10,000 个独特的英语单词(我们模型的“输出词汇”)。这就是我们解释线性层模型输出的方式。从行文看是不是一样的词语,但是其实它表达的含义是并不相同的,这就意味着我们并不能简单的将得到的输入嵌入直接放到我们的注意力里面。“编码器-解码器注意力”层的工作方式与多头自注意力类似,只不过它从其下面的层创建查询矩阵,并从编码器堆栈的输出中获取键和值矩阵。线性层是一个简单的全连接神经网络,它将解码器堆栈产生的向量投影到一个更大的向量中,称为 logits 向量。
复制链接