Self-Attention和Transformer

最新推荐文章于 2024-04-28 11:31:32 发布

silence56

最新推荐文章于 2024-04-28 11:31:32 发布

阅读量342

点赞数 1

分类专栏： self-attention nlp 文章标签：深度学习 nlp 神经网络

本文链接：https://blog.csdn.net/silence56/article/details/113375311

版权

本文深入探讨了Transformer模型，特别是Self-Attention机制，如何通过计算Query、Key和Value之间的注意力权重来捕获序列中的依赖关系，提高模型在NLP任务中的表现。Transformer的Encoder和Decoder结构以及Self-Attention层的实现步骤逐一解析。

摘要由CSDN通过智能技术生成

广义注意力机制模型

最初Attention机制的引入，为了解决机器翻译中将长序列向定长向量转化而造成的信息损失的瓶颈。Attention即将注意力关注于翻译部分对应的上下文。关键的操作是计算encoder与decoder state之间的关联性的权重，得到Attention分布，从而对于当前输出位置得到比较重要的输入位置的权重，在预测输出时相应的会占较大的比重。
通过Attention机制的引入，打破了只能利用encoder最终单一向量结果的限制，从而使模型可以集中在所有对于下一个目标单词重要的输入信息上，使模型效果得到极大的改善。

Self-Attention

以QKV模型来理解Attention机制，假定输入为Q (Query), Memory中以键值对(K, V)形式存储上下文信息，注意力机制可以看作是Query到一系列键值对(Key, Value)上的映射函数。

Attention Value = $QK^TV$
Attention本质为序列中的每一个元素分配一个权重系数， $QK^T$ 可看做Value的权重系数。
Attention Value (Q, K, V) = $softmax(\frac$

最低0.47元/天解锁文章

silence56

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Self-Attention和Transformer

文章目录广义注意力机制模型Self-AttentionTransformer模型Transformer中Self-Attention层的实现step1:step2:step3step4Step5：Step6：Decoder中的Encoder-Decoder Attention Layer广义注意力机制模型最初Attention机制的引入，为了解决机器翻译中将长序列向定长向量转化而造成的信息损失的瓶颈。Attention即将注意力关注于翻译部分对应的上下文。关键的操作是计算encoder与decod
复制链接

扫一扫

专栏目录