Transformer背后的数学

Transformer模型在2017年的《Attention Is All You Need》论文中提出,摒弃了RNN和CNN,仅基于注意力机制。模型分为Encoder和Decoder,每个包含多层self-attention和Feed Forward网络。Encoder通过Input Embedding、Positional Encoding、multi-head self-attention等处理输入序列,Decoder则加入masked multi-head self-attention以避免未来信息泄露。Transformer在机器翻译任务中表现出优越性能。
摘要由CSDN通过智能技术生成

目录

Encoder

Inputs

Input Embedding

Positional Encoding

Scaled Dot-Product Attention

multi-head self-attention

Add & Norm

Feed Forward

Decoder

Outputs

Positional Encoding

masked multi-head self-attention

multi-head self-attention

Feed Forward

Linear and softmax


        Transformer,2017年12月在《Attention Is All You Need》论文中被提出。占主导地位的序列转换模型(sequence transduction models )是基于编码器解码器结构的循环神经网络或者卷积神经网络。Transformer完全摒弃了这些,仅仅基于注意力机制(attention mechanisms)。在两个机器翻译任务实验中表明该模型在质量上更优,同时更可并行化,需要更少的训练时间。它也是第一个未使用RNN和CNN,仅仅依赖注意力机制的模型。模型整体结构如图:

从图来看ÿ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Transformer是一种基于自注意力机制的序列到序列模型,广泛应用于自然语言处理任务。下面是Transformer数学原理: 1. 自注意力机制(Self-Attention):自注意力机制是Transformer的核心组件之一。它通过计算输入序列中每个位置的注意力权重,来表示该位置与其他位置的关系。具体来说,对于输入序列中的每个位置,通过计算该位置与其他所有位置的相似度得到一个注意力分布,然后将该位置与所有位置的表示按照注意力分布进行加权求和得到最终的表示。这样,每个位置都可以同时考虑到其他位置的信息。 2. 多头注意力(Multi-Head Attention):为了增强模型对不同表示子空间的建模能力,Transformer引入了多头注意力机制。它通过将输入进行线性变换得到多组不同的查询、键和值,并对每组进行自注意力计算,最后将多组注意力结果进行拼接和线性变换得到最终的表示。 3. 位置编码(Positional Encoding):由于Transformer没有使用循环神经网络或卷积神经网络中的位置信息传递机制,为了让模型能够感知序列中的位置信息,Transformer引入了位置编码。位置编码是一个与输入序列长度相同的矩阵,将其与输入序列进行按元素相加,以融合位置信息。 4. 编码器-解码器结构(Encoder-Decoder Architecture):Transformer常用于序列到序列的任务,如机器翻译。为了处理这类任务,Transformer使用了编码器-解码器结构。其中,编码器用于将输入序列编码成上下文相关的表示,解码器则根据编码器的输出和先前的预测,逐步生成目标序列。 5. 位置前馈网络(Position-wise Feed-Forward Network):Transformer中的每个编码器和解码器层都包含一个位置前馈网络。该网络由两个全连接层组成,中间通过ReLU激活函数连接。位置前馈网络作用于每个位置的表示,对位置信息进行非线性变换。 6. 残差连接和层归一化(Residual Connections and Layer Normalization):为了解决深层模型训练中的梯度消失和梯度爆炸问题,Transformer使用了残差连接和层归一化。残差连接将原始输入与模型输出进行累加,保留原始信息;层归一化则对每个位置的表示进行归一化,减少表示中的协变量偏移。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

L(刘二宝)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值