transformer encoder的输出如何变为decoder输入的Key和VALUE

最新推荐文章于 2024-07-12 20:14:51 发布

u010787980

最新推荐文章于 2024-07-12 20:14:51 发布

阅读量857

点赞数 12

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010787980/article/details/136125019

版权

文章详细解释了Transformer模型中，Encoder生成的上下文向量如何通过Encoder-DecoderAttention机制转化为Decoder的关键输入，以及Self-Attention机制在生成过程中如何考虑全局信息。

摘要由CSDN通过智能技术生成

在Transformer模型中，Encoder的输出确实会被用作Decoder的输入，但具体不是直接作为Key和Value。实际上，Encoder的输出被用作Decoder中的所谓“Encoder-Decoder Attention”机制的一部分，这里的Key和Value来自Encoder的输出，而Query来自Decoder的当前状态。

以下是具体步骤：

Encoder的输出：Encoder处理完输入序列后，会生成一个表示该序列的上下文向量的序列。这个上下文向量的序列会被用作Decoder的输入。
Decoder的输入：在Decoder中，每一个时间步（或者说是每一个生成词的位置）都会有一个对应的输入。在生成第一个词时，这个输入通常是一个特殊的开始符号（比如"<sos>"）。在生成后续的词时，输入则是上一个时间步生成的词。这些输入首先会被转换成一个向量（通常是通过一个词嵌入层），然后再加上位置编码（Positional Encoding）。
Encoder-Decoder Attention：在Decoder中，每一个时间步都会计算一个注意力权重，这个权重是基于Decoder的当前状态和Encoder的所有输出计算的。具体来说，Decoder的当前状态会被用作Query，而Encoder的输出会被用作Key和Value。通过计算Query和所有Key的点积，然后应用softmax函数，就可以得到一组注意力权重。这些权重会被用来加权所有的Value，得到一个上下文向量。这个上下文向量会被用作Decoder在当前时间步的输出的一部分。

所以，虽然Encoder的输出并不直接变成Decoder的Key和Value，但它们确实在Decoder中被用作生成上下文向量的一部分，这个上下文向量在生成输出序列时起着关键的作用。

另外需要注意的是，在Decoder中还有一种Self-Attention机制，它的Key、Value和Query都来自Decoder的当前状态（或者说是当前时间步及其之前的所有时间步的输出）。这种Self-Attention机制和Encoder-Decoder Attention机制一起工作，使得Decoder能够在生成输出序列时考虑到整个输入序列的信息以及已经生成的输出序列的信息。

关注

12
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。