Bert

最新推荐文章于 2022-08-25 02:45:04 发布

Luiseia

最新推荐文章于 2022-08-25 02:45:04 发布

阅读量92

点赞数

本文链接：https://blog.csdn.net/qq_43131687/article/details/104365789

版权

Word2vec中相似度计算方案

在这里插入图片描述
关于余弦相似度维基百科的介绍

Transformer self-Self-Attention

self-attention显然是attentio机制的一种。上面所讲的attention是输入对输出的权重，例如在上文中，是I am a student 对学生的权重。self-attention则是自己对自己的权重，例如I am a student分别对am的权重、对student的权重。之所以这样做，是为了充分考虑句子之间不同词语之间的语义及语法联系。

       那么这个权值应该怎么计算呢？我在别处看到的图片以及我自己的理解如下：

在这里插入图片描述

注释：q\k\v分别对应attention机制中的Q\K\V，它们是通过输入词向量分别和W(Q)、W(K)、W(V)做乘积得到的。其目的主要是计算权值。

在这里插入图片描述

注释：q与k做点乘、然后归一化，就得到权值（乘积越大，相似度越高，权值越高）。得到的两个权值分别与v相乘后，再相加就是输出。同理就可以得到另一个单词的输出。
在这里插入图片描述
以上是一个单词一个单词的输出，如果写成矩阵形式就是Q*K，得到的矩阵归一化直接得到权值。

Luiseia

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Bert

Word2vec中相似度计算方案关于余弦相似度维基百科的介绍Transformer self-Self-Attentionself-attention显然是attentio机制的一种。上面所讲的attention是输入对输出的权重，例如在上文中，是I am a student 对学生的权重。self-attention则是自己对自己的权重，例如I am a student分别对am的权重、...
复制链接

扫一扫