attention权重解读
Attention机制:1. Attention用于计算"相关程度", 例如在翻译过程中,不同的英文对中文的依赖程度不同2. Attention通常可以进行如下描述,表示为将query(Q)和key-value pairs[公式] 映射到输出上3. 其中query、每个key、每个value都是向量,输出是V中所有values的加权,其中权重是由Query和每个key计算出来的,计算方法分为三步:**第一步:计算比较Q和K的相似度,用f来表示点乘 dot product f(Q,K)
原创
2021-03-10 17:37:40 ·
2251 阅读 ·
0 评论