Transformer——自回归Decoder到底在干什么?

Decoder整体结构详解图

出自知乎文章:Transformer之Decoder的QKV来源

图画的很清晰,Decoder分为两个部分,Self Attention和Encoder Attention:

  • Self Attention:输入的QKV都是经过embedding后的 想要输出的 query;
  • Encoder Attention:输入的Q是 目标语言的 经过Self Attention后的向量embedding;输入的K和V分别是Encoder输出的需要 被参考语言的 向量embedding。

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
是的,Transformer模型的自回归机制中使用了注意力机制(attention)。注意力机制在Transformer中起到了关键的作用,用于建立输入序列中各个位置之间的关联和依赖关系。 在Transformer模型中,自回归机制通过多头注意力(multi-head attention)实现。它允许模型在每个位置上对整个输入序列进行注意力计算,以获取与当前位置相关的信息。具体来说,自回归机制通过计算查询(query)、键(key)和值(value)之间的注意力权重,对序列中的不同位置进行加权聚合。 自回归注意力的计算过程如下: 1. 首先,通过将输入序列分别与查询、键和值矩阵相乘,得到相应的查询、键和值向量。 2. 然后,计算查询向量与键向量之间的相似度得分,通常使用点积或其他相似度度量方法来计算。 3. 通过对得分进行归一化,得到注意力权重。 4. 最后,使用注意力权重对值向量进行加权求和,得到当前位置的上下文表示。 自回归机制中的注意力计算是通过多头注意力来实现的,它使用多个并行的注意力头来捕捉不同的关注点。每个注意力头都会产生一个上下文表示,最后通过连接或线性变换将多个注意力头的结果合并起来。 总而言之,Transformer的自回归机制中使用了注意力机制,它允许模型在每个位置上对输入序列进行注意力计算,以获取与当前位置相关的信息,从而实现对序列的建模和生成。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值