三元组中的自注意力机制&多头自注意力机制

最新推荐文章于 2024-07-19 21:41:19 发布

码农_Xiao

最新推荐文章于 2024-07-19 21:41:19 发布

阅读量5.9k

点赞数

分类专栏：神经网络文章标签：深度学习 transformer 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TUtou_XiaoGe/article/details/123371760

版权

神经网络专栏收录该内容

1 篇文章 1 订阅

订阅专栏

本文介绍了自注意力机制在知识图谱中的应用，通过将三元组(i, j, k)转化为初始embedding，再经过线性变换和非线性层，计算出每个三元组的注意力权重。多头注意力机制则是在单头注意力的基础上并行执行多次，每个多头生成独立的注意力分布，最后取平均得到最终的注意力权重。这种机制有助于捕捉不同方面的信息，提升表示学习的效果。

摘要由CSDN通过智能技术生成

自注意力机制

以上是自注意力机制的基本原理。在知识图谱的三元组中

可以将图中的（i，j，k）当作一组三元组的初始embedding（头，尾，关系）

那么对三元组的初始表示则是使用一个线性变矩阵 $C_{ijk}$ = $W_{1}$ *(i,j,k)。

然后对 $C_{ijk}$ 经过一个非线性层获得，计算出的每个 $b_{ijk}$ 并不是在（0~1）之间的，所以还需要对输入的所有 $b_{ijk}$ 通过softmax计算

计算出的 $\alpha _{ijk}$ 就是每个三元组在这一组输入中的注意力值，也可以当作每个三元组的权重。

如何生成头节点的最终embedding（输出）

例如对于实体e1的所有邻居，则是将e1为头节点的所有三元组作为输入。

e1_emb的表示为 $\sigma\$ （ $\sum$ $\alpha _{ijk}$ * $C_{ijk}$ ）（所有以e1为头节点），其中 $\sigma\$ 为一个非线性变换函数

多头自注意力机制

多头的实际执行就是执行多次注意力机制（每次的参数是不同），每一次注意力机制都会生成一个对应的 $\alpha _{ijk}$ ，这些 $\alpha _{ijk}$ 也是独立的互不干扰的，最后对每个头生成的注意力值 $\alpha _{ijk}$ 取平均则可得到这个三元组对应的注意力值。也就是权重。

输出

多头注意力机制的输出与上面的区别就在于最后要对多头取平均。

即 ei_emb= $\sigma\$ （ $\frac{1}{M}$ $\sum_{1}^{M}$ $\alpha _{ijk}$ * $C_{ijk}$ ）

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
三元组中的自注意力机制&多头自注意力机制

自注意力机制以上是自注意力机制的基本原理。在知识图谱的三元组中可以将图中的（i，j，k）当作一组三元组的初始embedding（头，尾，关系）那么对三元组的初始表示则是使用一个线性变矩阵=*(i,j,k)。然后对经过一个非线性层获得，计算出的每个并不是在（0~1）之间的，所以还需要对输入的所有通过softmax计算计算出的就是每个三元组在这一组输入中的注意力值，也可以当作每个三元组的权重。如何生成头节点...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。