Attention理解（未完待续）

最新推荐文章于 2024-09-10 20:02:49 发布

Doodlera

最新推荐文章于 2024-09-10 20:02:49 发布

阅读量173

点赞数

分类专栏： PYTHON Attention 文章标签：机器学习算法决策树

本文链接：https://blog.csdn.net/qq_35248792/article/details/111633160

版权

PYTHON 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

Attention

1 篇文章 0 订阅

订阅专栏

本文深入浅出地介绍了Attention机制，将其比喻为数据库搜索过程，Q（Query）代表输入，K（Key）是所有数据的索引，V（Value）是内容。在Self-Attention中，Q、K、V通常相同。Attention通过计算Query和Key的相似度，确定Value的权重，进而加权求和得到最终的Attention值。这一机制在神经网络中用于改进序列到序列模型的编码和解码过程。

摘要由CSDN通过智能技术生成

总结、记录一下对Attention的理解。不保证正确。

Attention的流程，我觉得这一篇讲解的比较易于理解，根据公式过一遍就可以有一个简单的认知。整理流程与seq2seq一样。区别在于，在每一个时间点i，得到不同的编码向量C。使用不同的编码向量再进行解码，得到y。

Q,K,V的含义 Q代表输入，K代表被查找的全部，V就是内容。打个不一定恰当的比方，在数据库中搜索，Q就是从输入提取出的关键字，K就是全部数据的索引，通过Q和K的相似度找到目标。这三者不一定要一致，只是现在常用的K和V是相同的。Self-Attention 中 K=V=Q。分别具有矩阵权重，通过训练得到。

Attention机制：将Source中的构成元素想象成是由一系列的<Key,Value>数据对构成，此时给定Target中的某个元素Query，通过计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的Attention数值。所以本质上Attention机制是对Source中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。

Doodlera

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Attention理解（未完待续）

总结、记录一下对Attention的理解。不保证正确。Attention的流程，我觉得这一篇讲解的比较易于理解，根据公式过一遍就可以有一个简单的认知。整理流程与seq2seq一样。区别在于，在每一个时间点i，得到不同的编码向量C。使用不同的编码向量再进行解码，得到y。Q,K,V的含义 Q代表输入，K代表被查找的全部，V就是内容。打个不一定恰当的比方，在数据库中搜索，Q就是从输入提取出的关键字，K就是全部数据的索引，通过Q和K的相似度找到目标。这三者不一定要一致，只是现在常用的K和V是相同的。Atte
复制链接

扫一扫

专栏目录