Transformer & Vision Transformer

一、Transformer

Transformer 是一种深度学习模型架构,通常用于自然语言处理任务,利用编码器、解码器结构和自注意力机制,能够更好地捕捉源语言和目标语言之间的语义关系。³ Transformer 最初是由 Google 的研究人员于 2017 年提出,用于文本翻译任务,后来被广泛应用于其他领域,如文本生成、文本摘要、语音识别等。⁶ Transformer 的主要特点是不使用序列对齐的递归神经网络或卷积神经网络,而是完全依赖自注意力来计算输入和输出的表示,从而提高了模型的训练速度和效果。¹ Transformer 的核心组件是多头自注意力机制,它可以同时关注输入序列的不同位置,并将不同的表示子空间进行组合。Transformer 还使用了位置编码、残差连接、层归一化、前馈神经网络等技术,使得模型更加强大和稳定。

transformer输入的是一个序列数据,也就是词向量,然后对每个词向量都会添加一个位置编码,来让transformer得到词向量的位置信息,因为tansformer是基于self-attention的,而self-attention是感知不到位置信息的,self-attention会将各个词都计算他们之间的attention值,因此如果不添加位置编码,transformer充其量只能做一个词袋模型,无法做到充分理解语义信息。

在transformer发布的原论文中,采用的是正余弦位置编码,位置编码通过使用不同频率的正弦、余弦函数生成,然后和对应的位置的词向量相加,位置向量维度必须和词向量的维度一致。

2.2 Transformer的Encoder

看上图第2部分 Encoder block。Encoder block是由6个encoder堆叠而成,Nx=6。上图2中的灰框部分就是一个encoder的内部结构,从图中我们可以看出一个encoder由Multi-Head Attention 和 全连接神经网络Feed Forward Network构成。

Multi-Head Attention:

因为咱们再实际使用中,每一个样本,也就是每一条序列数据都是以矩阵的形式输入地,故可以看到上图中,X矩阵是由"Tinking"和"Machines"词向量组成的矩阵,然后跟过变换得到Q,K,V。
 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值