目录
4.1 什么是Transformer
Transformer是一种基于自注意力机制(self-attention mechanism)的神经网络结构,最初由Google在2017年提出。它在自然语言处理领域中的表现优异,特别是在机器翻译任务上的表现超越了传统的循环神经网络(RNN)和卷积神经网络(CNN)。
Transformer的创新之处在于它不需要序列中的所有元素都按顺序计算,而是通过注意力机制来处理整个序列。这使得它可以并行处理序列中的所有元素,从而提高了训练和推理的效率。此外,Transformer模型中的编码器和解码器模