Transformer & Vision Transformer

zz1z

已于 2023-12-03 15:12:38 修改

阅读量243

点赞数 1

文章标签： transformer 深度学习人工智能

于 2023-12-03 15:11:37 首次发布

本文链接：https://blog.csdn.net/m0_74043494/article/details/134764448

版权

一、Transformer

Transformer 是一种深度学习模型架构，通常用于自然语言处理任务，利用编码器、解码器结构和自注意力机制，能够更好地捕捉源语言和目标语言之间的语义关系。³ Transformer 最初是由 Google 的研究人员于 2017 年提出，用于文本翻译任务，后来被广泛应用于其他领域，如文本生成、文本摘要、语音识别等。⁶ Transformer 的主要特点是不使用序列对齐的递归神经网络或卷积神经网络，而是完全依赖自注意力来计算输入和输出的表示，从而提高了模型的训练速度和效果。¹ Transformer 的核心组件是多头自注意力机制，它可以同时关注输入序列的不同位置，并将不同的表示子空间进行组合。Transformer 还使用了位置编码、残差连接、层归一化、前馈神经网络等技术，使得模型更加强大和稳定。

transformer输入的是一个序列数据，也就是词向量，然后对每个词向量都会添加一个位置编码，来让transformer得到词向量的位置信息，因为tansformer是基于self-attention的，而self-attention是感知不到位置信息的，self-attention会将各个词都计算他们之间的attention值，因此如果不添加位置编码，transformer充其量只能做一个词袋模型，无法做到充分理解语义信息。

在transformer发布的原论文中，采用的是正余弦位置编码，位置编码通过使用不同频率的正弦、余弦函数生成，然后和对应的位置的词向量相加，位置向量维度必须和词向量的维度一致。

2.2 Transformer的Encoder

看上图第2部分 Encoder block。Encoder block是由6个encoder堆叠而成，Nx=6。上图2中的灰框部分就是一个encoder的内部结构，从图中我们可以看出一个encoder由Multi-Head Attention 和全连接神经网络Feed Forward Network构成。

Multi-Head Attention：