Transformer模型结构详解

1、模型架构

大部分序列到序列(seq2seq)模型都使用编码器-解码器结构 (引用)。编码器把一个输入序列(𝑥1,...𝑥𝑛)(x1,...xn)映射到一个连续的表示𝑧=(𝑧1,...𝑧𝑛)z=(z1,...zn)中。解码器对z中的每个元素,生成输出序列(𝑦1,...𝑦𝑚)(y1,...ym)。解码器一个时间步生成一个输出。在每一步中,模型都是自回归的(引用),在生成下一个结果时,会将先前生成的结果加入输入序列来一起预测。

2、结构细节

2.1 Encoder

encoder

 编码器的每层encoder包含Self Attention 子层和FFNN子层,每个子层都使用

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Transformer模型是一种基于自注意力机制的深度学习架构,最初由Google在2017年的论文《Attention is All You Need》中提出,主要用于自然语言处理NLP)任务,如机器翻译和文本生成。Transformer模型的核心组件是编码器(Encoder)和解码器(Decoder),它们都包含自注意力层和前馈神经网络(Feedforward Networks)。 **Decoder详解:** 1. **自注意力机制(Self-Attention)**:这是Transformer模型的核心,它允许模型对输入序列中的每个元素同时考虑所有其他元素,从而捕捉到全局上下文信息。这与RNN的顺序依赖不同,提供了并行计算的优势。 2. **位置编码(Positional Encoding)**:为了保留输入序列的相对位置信息,Transformer使用了额外的向量加到每个词的嵌入上,即使没有循环结构也能识别顺序。 3. **解码器层(Decoder Layers)**:解码器由多层组成,每层包括一个多头自注意力(Multi-Head Attention)模块和一个前馈神经网络(FFN)。前馈网络用于学习更复杂的表示,而自注意力模块则允许模型关注编码器的输出。 4. **前馈神经网络(Feedforward Networks)**:这部分通常是一个两层的全连接网络,用于进一步提取特征和非线性变换。 5. **掩码(Masking)**:在训练阶段,解码器的自注意力模块会应用掩码,确保解码器只能看到前面的输入,防止模型看到未来的输出,保证预测的序列性。 **Encoder详解:** - **编码器的多头注意力(Multi-Head Attention)**:与解码器类似,但这里的自注意力是单向的,只读取输入序列,不产生新的输出。 - **编码器层(Encoder Layers)**:和解码器一样,包含自注意力和前馈网络,用于对输入进行深度处理。 Transformer的高效性和并行性使得它在NLP领域取得了显著成功,并启发了众多变体,例如BERT、RoBERTa、T5等预训练模型

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值