5、transformer架构

一、架构解读

在这里插入图片描述

Encoder

Nx = 6,Encoder block由6个encoder堆叠而成,图中的一个框代表的是一个encoder的内部结构,一个Encoder是由Multi-Head Attention全连接神经网络Feed Forward Network两层构成。每个子层之后,都会使用残差连接和层归一化操作,这些操作统称为Add&Norm,防止出现梯度问题。
在这里插入图片描述

自注意力机制

这是Transformer的核心概念之一,它使模型能够同时考虑输入序列中的所有位置,而不是像循环神经网络(RNN)或卷积神经网络(CNN)一样逐步处理。自注意力机制允许模型根据输入序列中的不同部分来赋予不同的注意权重,从而更好地捕捉语义关系。

多注意力头

Transformer中的自注意力机制被扩展为多个注意力头,每个头可以学习不同的注意权重,以更好地捕捉不同类型的关系。多头注意力允许模型并行处理不同的信息子空间。

Decoder

Transformer的解码器由6个相同的层组成,每层包含三个子层:掩蔽自注意力层Encoder-Decoder注意力层****和逐位置的前馈神经网络。每个子层后都有残差连接和层归一化操作,简称Add&Norm。这样的结构确保解码器在生成序列时,能够考虑到之前的输出,并避免未来信息的影响。
在这里插入图片描述

掩蔽自注意力层(mask self-attention)

掩蔽操作 (Masking) 是为了解决在处理序列数据时,模型可能“看到”未来信息的问题。
在训练过程中,模型不应该访问未来信息,因为这会导致模型预测结果不准确。
掩蔽操作通过在注意力矩阵中将未来信息设置为 0,来阻止模型访问未来信息。
例如,在处理文本序列时,模型不应该访问当前词语之后的词语,因此需要将这些词语的注意力权重设置为 0。

二、参考

【超详细】【原理篇&实战篇】一文读懂Transformer

一文搞懂 Transformer(总体架构 & 三种注意力层)

  • 19
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值