论文简读-BERT-INT-《 A BERT-based Interaction Model For Knowledge Graph Alignment》

最新推荐文章于 2022-11-08 16:50:09 发布

置顶六娃_lw

最新推荐文章于 2022-11-08 16:50:09 发布

阅读量2.6k

点赞数 6

分类专栏：知识图谱实体对齐文章标签：机器学习神经网络 python 人工智能

本文链接：https://blog.csdn.net/qq_26623993/article/details/108087348

版权

知识图谱同时被 2 个专栏收录

5 篇文章 1 订阅

订阅专栏

实体对齐

4 篇文章 2 订阅

订阅专栏

论文简读-BERT-INT-《 A BERT-based Interaction Model For Knowledge Graph Alignment》

在这里插入图片描述

会议：IJCAI 2020
源码：https://github.com/kosugi11037/bert-int

1. 动机

(1). 在实体对齐任务中，知识图谱的side information（边缘信息：包括名称、描述和属性）比structural information（结构信息：知识图谱的图结构）更有用。
(2). 由于知识图谱的异构性，对齐的实体往往不具有相同的邻域，使得知识图谱的结构信息难以利用，从而对齐的准确率较低。

2. 方法

$\,\,\,\,\,\,\,\,\,\,$ 本文提出的方法仅仅使用知识图谱的边缘信息，其做法并非聚集邻居节点，而是计算邻居节点之间的相互作用（邻居节点name/description信息的相互作用），这种相互作用能够捕获邻居节点之间细粒度的匹配。相似地，还计算了节点本身属性的相互作用。

2.1. 符号定义

本文相关符号、概念的定义

图1. 本文相关符号、概念的定义

2.2. BERT-INT 模型

$\,\,\,\,\,\,\,\,\,\,$ 模型的整体框架如图2所示，BERT-INT采用BERT模型作为基础单元处理实体的边缘信息。本文所提出的交互模型包含三个部分：①实体本身的name/description交互；②邻居视图name/description交互③实体本身的属性视图交互。三种交互的结果向量进行拼接操作形成交互结果向量，将该向量传入多层感知机MLP得到实体对的相似度。
BERT-INT 框架

图2. BERT-INT 框架

2.2.1. BERT-Unit

$\,\,\,\,\,\,\,\,\,\,$ 如图2所示，首先利用与训练的BERT模型对实体的name/description进行计算（优先采用description，当其缺失时，用name代替），取CLS标签对应值，然后使用MLP进行映射，得到的结果作为该实体的向量表示：
在这里插入图片描述

基于该向量表示和边缘损失来微调BERT模型参数，公式如下：
在这里插入图片描述

其中 $g (.)$ 表示向量 $C (e)$ 和 $C (e^{'})$ 曼哈顿距离函数， $m$ 为边缘超参数。负样本的采样方法同BootEA中提出的方法。由于计算资源不足，Bert单元将采用以上方法微调，在后续的交互过程中，bert模型参数将会被固定。

2.2.2. name/description交互

$\,\,\,\,\,\,\,\,\,\,$ 给定 $K G$ 和 $K G^{'}$ 中的两个实体 $e$ 和 $e^{'}$ ，使用上述BERT单元计算实体 $e$ 和 $e^{'} 的$ name/description向量表示 $C (e)$ 和 $C (e^{'})$ ，然后计算 $C (e)$ 和 $C (e^{'})$ 的余弦相似度，计算结果即为name/description交互。

2.2.3. 邻居视图交互

$\,\,\,\,\,\,\,\,\,\,$ 给定 $K G$ 和 $K G^{'}$ 中的两个实体 $e$ 和 $e^{'}$ ，首先根据公式(1)计算 $e$ 和 $e^{'}$ 的邻居节点的name/description的向量表示，得到两个向量集合 ${C(e_i)\}_{i=1}^{|N(e)|}$ 和 ${C(e'_j)\}_{j=1}^{|N(e')|}$ ，然后使用余弦相似度计算这两个向量集合的相似度矩阵 $S$ ，其元素计算公式为 $s_{ij}=\frac{C(e_i)\cdot C(e'_j)}{||C(e_i)||\cdot||C(e'_j)||}$ ，最后使用双重聚合方法对 $S$ 进行计算，得到邻居视图交互向量。
$\,\,\,\,\,\,\,\,\,\,$ 所谓双重聚合方法，就是分别从矩阵 $S$ 的行方向和列方向进行聚合，最终将两个方向的聚合结果向量进行拼接。其中行聚合步骤如下：

1). 对每行进行最大池化运算。对于第 $i$ 行向量 $S_i=\{S_{i0}, S_{i1}, ...,S_{in} \}$ ，取其中的最大值 $S_i^{max}$ 。这么做的理由是：由于知识图谱的异构性，两个对齐实体 $e$ 和 $e^{'}$ 的邻居实体并非完全相同，我们只关心 $e$ 的某个邻居实体与 $e^{'}$ 的邻居实体中最相似的那个实体的相似度。
2). 使用高斯核函数对 $S_i^{max}$ 进行一对多映射，得到多个映射值，组成向量 $K^r(S_i)$ 。作者给出的解释为一对多的映射可以提高
3). 最后在列方向上对 $K^r(S)$ 矩阵求对数平均值，得到长度为 $L$ 的向量。
$\,\,\,\,\,\,\,\,\,\,$ 行聚合的所有公式如公式(3)所示，列聚合步骤与其相似。

在这里插入图片描述
其中 $n$ 表示最大邻居数， $L$ 表示高斯核个数， $r$ 指示行聚合。
$\,\,\,\,\,\,\,\,\,\,$ 将行聚合和列聚合的结果进行拼接，得到邻居视图交互相似度向量 $\phi(N(e),N(e'))$ ：

其中 $\bigoplus$ 表示拼接运算。
$\,\,\,\,\,\,\,\,\,\,$ 对于对齐的实体 $e$ 与 $e^{'}$ ，他们的某个邻居三元组分别为 $e,r_i,e_i)$ 和 $e',r'_j,e'_j)$ ，如果邻居实体 $e_i$ 与邻居实体 $e'_j$ 相似，则关系 $r_i$ 与关系 $r'_j$ 在于以上应该也是相似的。基于以上推断，作者不仅利用邻居计算相似度矩阵 $S$ ，还利用与邻居关系计算掩饰矩阵 $M$ ，对邻居实体相似度矩阵进行校正，处理步骤如下：

1). 首先对关系的头实体集合和尾实体集合分别求 $C (e)$ 向量平均，将求得的两个向量进行拼接操作，得到关系的向量表示。
2). 然后，根据实体 $e$ 、 $e^{'}$ 的多个邻居关系向量求得相似度矩阵 $M$ 。 $M_{ij}= sim(C(r_i), C(r'_j))$ ， $M_{ij}$ 表示实体 $e$ 的第 $i$ 个邻居的关系 $r_i$ 与实体 $e^{'}$ 的第 $j$ 个邻居的关系 $r'_j$ 的余弦相似度。
3). 最后使用 $M$ 校正 $S$ ，公式为 $S=S\bigotimes M$ ，其中 $\bigotimes$ 元素间乘法运算。

最终通过关系掩饰矩阵 $M$ 校正的邻居视图交互示意图如图3所示：

图3. 邻居视图交互示意图

2.2.4. 属性视图交互

$\,\,\,\,\,\,\,\,\,\,$ 实体 $e$ 和 $e^{'}$ 的某个属性三元组分别为 $e,a_i,v_i)$ ， $e',a'_j,v'_j)$ ，与实体的邻居关系三元组相似，因此属性视图交互可以类比于邻居视图交互，相似度矩阵根据属性值计算： $S_{ij}=sim(C(v_i),C(v'_j))$ ，掩饰矩阵根据属性名称计算： $M_{ij}=sim(C(a_i),C(a'_j))$ ，其他步骤与邻居视图交互相同，最终得到属性视图交互相似度向量 $\phi(A(e),A(e'))$ 。

2.2.5. 交互聚合

$\,\,\,\,\,\,\,\,\,\,$ 将①实体本身的name/description交互相似度值、②邻居视图name/description交互相似度向量和③实体本身的属性视图交互相似度向量进行聚合（也就是拼接操作），得到实体对 $(e, e^{'})$ 的相似度向量 $\phi(e,e')$ ，然后使用MLP网络计算实体之间的相似度分数 $g (e, e^{'})$ ，公式表示如下：
在这里插入图片描述

其中 $\bigoplus$ 表示拼接运算。最终，将 $g (e, e^{'})$ 带入到公式(2)边缘损失计算公式中，根据该损失微调公式(5)的MLP网络参数。

2.2.6. 实体对齐

$\,\,\,\,\,\,\,\,\,\,$ 实体对齐过程中，先根据实体的 $C (e)$ 向量计算 $k$ 个余弦相似度最高的候选对齐实体，然后再使用以上方法分别计算 $k$ 个候选实体与 $e$ 间的相似度分数值 $g (e, e^{'})$ ，最后对结果进行从大到小排列。

3. 实验

3.1. 数据集和参数设置

$\,\,\,\,\,\,\,\,\,\,$ 数据集采用交叉语言的DBP15K和单语言的DWY100K，衡量指标为 $H i t R a t i o @ K (K = 1, 10)$ 和 $M R R$ 。

参数名	参数值
CLS长度	768
公式(1)中MLP输出维度	300
公式(5)中MLP的维度	11->1
n	50
边缘参数m（微调bert时）	3
边缘参数m（训练公式(5)中MLP时）	1
$L$	20
$\mu$	0.025到0.975，间隔0.05，共20个
$\sigma$	0.1

3.2. 实验结果

3.2.1. DBP15K上的结果

DBP15K实验结果

3.2.2. DWY100K上的结果

$\,\,\,\,\,\,\,\,\,\,$ 模型CEAFF在HR1指标上达到100%，本文的BERT-INT在DWY100K的两个子数据集上的HR1结果分别为99.2%和99.9%

3.2.3. 消融学习

消融学习结果对比
$\,\,\,\,\,\,\,\,\,\,$ 从结果可以看出，最大池化操作、列聚合、邻居视图交互和自身属性交互为高准确率提供了积极作用；使用图网络模型替换多视图交互方法得到的结果不理想；掩饰矩阵对结果没有积极的贡献，甚至有消极作用；多跳邻居视图对结果几乎没有影响。

4. 结论

$\,\,\,\,\,\,\,\,\,\,$ 本文通过构建基于BERT嵌入的邻域和属性之间的交互来解决知识图对齐问题，从而获得邻居和属性的细粒度匹配，与其他模型相比，该模型的性能最好。

文章为阅读随笔，如有错误之处请批评指正，感谢您的阅读！

六娃_lw

关注

6
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
13
评论
论文简读-BERT-INT-《 A BERT-based Interaction Model For Knowledge Graph Alignment》

论文简读-BERT-INT-《 A BERT-based Interaction Model For Knowledge Graph Alignment》IJCAI 20201. 动机(1). 在实体对齐任务中，知识图谱的side information（边缘信息：包括名称、描述和属性）比structural information（结构信息：知识图谱的图结构）更有用。(2). 由于知识图谱的异构性，对齐的实体往往不具有2. 方法3. 实验...
复制链接

扫一扫