详解深度学习之Transformer

最新推荐文章于 2024-08-06 14:04:30 发布

君不见~

最新推荐文章于 2024-08-06 14:04:30 发布

阅读量469

点赞数 3

分类专栏：深度学习基础文章标签：人工智能神经网络经验分享深度学习

本文链接：https://blog.csdn.net/qq_23865133/article/details/136499837

版权

深度学习基础专栏收录该内容

17 篇文章 4 订阅

订阅专栏

Transformer模型是由Vaswani等人在2017年提出的，它是第一个完全基于注意力机制的模型，用于处理序列到序列的任务，比如文本翻译。它在处理序列数据时，相比于之前的模型如循环神经网络（RNN）和长短期记忆网络（LSTM），展现了更高的效率和性能。其创新之处在于使用了自注意力机制（Self-Attention），能够在处理序列数据时更高效地捕获远距离依赖关系，这使得它在并行化处理方面有着显著的优势。Transformer模型包括两大部分：编码器（Encoder）和解码器（Decoder）。编码器负责处理输入序列，解码器负责生成输出序列。每个编码器和解码器都是由多个相同的层堆叠而成，每层包含两个主要的子结构：多头注意力机制（Multi-Head Attention）和前馈神经网络（Feed-Forward Neural Network）

Transformer组成部分

自注意力机制（Self-Attention）：允许输入序列中的每个位置的元素，都直接与序列中的其他所有位置的元素相互作用，从而捕获它们之间的关系。
多头注意力（Multi-Head Attention）：将自注意力层的输入分割成多个“头”，每个头独立进行自注意力操作，然后将它们的输出拼接起来，这样可以让模型同时从不同的表示子空间学习信息。
位置编码（Positional Encoding）：由于Transformer模型没有循环结构，为了使模型能够利用序列的顺序信息，位置编码会被加到输入的嵌入向量中。
编码器和解码器层（Encoder and Decoder Layers）：Transformer模型包含编码器和解码器，每个部分由多层相同的层堆叠而成。编码器层包含自注意力和前馈神经网络，解码器还包含一个额外的注意力层用于关注编码器的输出。
前馈神经网络（Feed-Forward Neural Networks）：在自注意力和多头注意力之后，每个编码器和解码器层都包含一个前馈神经网络，用于进一步处理数据。