【自然语言处理】【知识图谱】利用属性、值、结构来实现实体对齐

BQW_

已于 2022-05-22 14:43:59 修改

阅读量3.1k

点赞数 6

分类专栏：自然语言处理文章标签：知识图谱实体对齐图神经网络属性三元组关系三元组

于 2021-04-13 21:30:56 首次发布

本文链接：https://blog.csdn.net/bqw18744018044/article/details/115679426

版权

自然语言处理专栏收录该内容

135 篇文章

订阅专栏

《利用属性、值、结构来实现实体对齐》 Exploring and Evaluating Attributes, Values, and Structures for Entity Alignment

相关博客：
【自然语言处理】【知识图谱】利用属性、值、结构来实现实体对齐
 【自然语言处理】【知识图谱】基于图匹配神经网络的跨语言知识图谱对齐
 【自然语言处理】【知识图谱】使用属性嵌入实现知识图谱间的实体对齐
 【自然语言处理】【知识图谱】用于实体对齐的多视角知识图谱嵌入
 【自然语言处理】【知识图谱】MTransE：用于交叉知识对齐的多语言知识图谱嵌入
 【自然语言处理】【知识图谱】SEU：无监督、非神经网络实体对齐超越有监督图神经网络？

一、简介

1. 目标

知识图谱(KG)可以看做是三元组的集合，每个三元组(triples)均是由subject、predicate和object组成。知识图谱中的三元组主要包含两种，一种是relation triples，另一种是attribute triples。其中，relation triples中的subject和object均是实体，而predicate通常被称为关系。attribute triples中的subject是实体，而object则是取值(value)，该值通常是一个数值或者文本，其predicate通常称为属性。

Entity Alignment(EA)的目标是从多个图谱中构建出一个统一的图谱。目前基于GNN的方法在EA任务上的不错，但是并没有利用到attribute triples。因此，本文的目标是利用attribute triples来进一步改善实体对齐。本文的核心假设是：相同的实体通常共享相似的属性。

2.挑战

属性合并挑战(Attribute Incorporation Challenge)

将relation triples和attribute triples进行统一建模比单独建模这两种三元组更加的有效，因此这样就能将attribute triples中获得的对齐信号通过relation triples传递到其他实体上。先前的工作是使用独立的网络来分别学习relation triples和attribute triples。

此外，学习实体不同属性(attribute)的重要性对于判断实体等价也非常重要。例如，对于城市实体，属性Time Zone的重要性显然低于属性Name，因此许多城市共享Time Zone。

数据集偏差挑战(Dataset Bias Challenge)

许多EA数据集在属性Name上具有偏差，这导致了许多EA模型的表现被高估了。在数据集DBP15k中约有60%-80%的种子等价实体可以通过属性Name进行对齐。

3.贡献

为了解决Attribute Incorporation Challenge问题，我们提出了Attributed Graph Neural Network(AttrGNN)来统一学习attribute triples和relation triples，其能够动态的学习属性和值的重要度。
在AttrGNN中，我们提出了一种attributed value encoder来对属性和值进行选择和聚合，并使用一个mean aggregator将属性相似的信号传递给邻居实体。
在AttrGNN中，由于不同类型的属性具有不同的相似度度量方式，论文将整个KG划分成4个子图，然后利用GNN分别学习它们的表示。
最后，论文提出了2种方法来将4个子图的表示集成在一起。
为了缓解Dataset Bias Challenge，我们设置了一个较难的实验。具体来说，我们从测试集中挑选属性name相似度最小的等价实体来构造一个更难的测试集。

二、方法

1.整体框架

1.1 知识图谱(KG)

知识图谱可以表示为6元组有向图 $G=(E,R,A,V,T^r,T^a)$ ，其中 $E$ 、 $R$ 、 $A$ 、 $V$ 分别指实体(Entity)、关系(Relation)、属性(Attribute)和值(Value)的集合，而 $T^r=\{(h,r,t)|h,t\in E, r\in R\}$ 和 $T^a=\{(e,a,v)|e\in E,a\in A,v\in V\}$ 是关系三元组(relation triples)和属性三元组(attribute triples)的集合。

1.2 实体对齐(Entity Alignment,EA)

EA的目标是寻找两个知识图谱 $G$ 和 $G^{'}$ 的一个映射，例如 $\psi=\{(e,e')|e\in E,e'\in E'\}$ ，其中 $e$ 和 $e^{'}$ 是等价实体。另外，种子等价实体集合 $\psi^s$ 被用作训练数据。

1.3 框架

在这里插入图片描述

整体的框架如图1所示，其主要由4个部分组成：

(1) 图划分(Graph Partition)

负责将输入的图谱按照属性和值分为4个子图。

(2) 子图编码器(Subgraph Encoder)

利用多通道的GNN分别学习4个子图，其中每个通道是由 $L$ 层Attributed Value Encoder和Mean Aggregator堆叠而成。其中Attributed Value Encoder用来聚合属性和值，从而产生实体的embedding。而Mean Aggregator负责将属性对齐的特征传递到邻居实体上。

(3) 图对齐(Graph Alignment)

将两个知识图谱中不同通常的实体向量统一到同一个向量空间。

(4) 通道集成(Channel Ensemble)

将不同通道输出的相似度集成在一起，用于最终预测结果。

2.图划分(Graph Partition)

由于属性和取值具有各种各样的类型，例如字符串 $\mathbb{S}$ 和数字 $\mathbb{R}$ 。不同类型的属性具有不同的度量方式，例如数字的相似度是数字间的差值，而字符串的相似度则是基于字符串的语义。因此，论文将知识图谱按相似度度量的不同划分成了4个子图，定义为 $G^k=(E,R,A^k,V^k,T^r,T^{ak})$ ，其中 $k\in\{1,2,3,4\}$ 。

$G^1$ 包含了仅有Name的属性三元组，例如 $A^1=\{a_{name}\}$ ；
$G^2$ 包含了字符串属性三元组，例如 $A^2=\{a|(e,a,v)\in T^a,v\in\mathbb{S},a\neq a_{name}\}$ ；
$G^3$ 包含了数字属性三元组，例如 $A^3=\{a|(e,a,v)\in T^a,v\in\mathbb{V}\}$ ；
$G^4$ 没有属性三元组，例如 $A^4=\empty$ ；

子图之间的属性三元组互斥，但关系三元组共享。

3.子图编码器(Subgraph Encoder)

论文设计了4种GNN通道(GCs)来编码上面的子图，分别是： $G^1$ 的name通道， $G^2$ 的字符串通道， $G^3$ 的数字通道， $G^4$ 的结构通道。这些通道均是由2中类型的GNN层构成的：Attributed Value Encoder和Mean Aggregator。其中，字符串通道和数字通道均会堆叠Attribute Value Encoder和Mean Aggregator。而name通道和结构通道由于没有属性值，则不堆叠Attribute Value Encoder。此外，name通道、数字通道、字符串通道添加了残差链接。所有的通道均使用2层的GNN。

3.1 Attributed Value Encoder

Attributed Value Encoder能够将属性和值上的特征有选择地聚合到中心实体上。这里展示如何获得实体 $e$ 的第一层隐藏状态 $h_e^1$ ，相同的方法会应用到所有的实体上。

给定实体 $e$ 的属性三元组 $\{(e,a_1,v_1),\dots,(e,a_n,v_n)\}$ ，然后使用BERT来获取文本和数值的向量表示，最终得到属性特征序列 $\{\textbf{a}_1,\dots,\textbf{a}_n\}$ 和值特征序列 $\{\text{v}_1,\dots,\text{v}_n\}$ 。将取值 $v$ 看作是节点，属性 $a$ 看作是边，然后使用类似GAT的注意力机制来将属性和取值的信息聚合至单一向量中
$\textbf{h}_e^1=\sigma(\sum_{j=1}^{n}\alpha_j\textbf{W}_1[\textbf{a}_j;\textbf{v}_j])\\ \alpha_j=\text{softmax}(o_j)=\frac{exp(o_j)}{\sum_{k=1}^{n}exp(o_k)}\\ o_j=\text{LeakyReLU}(\textbf{u}^T[\textbf{h}_e^0;\textbf{a}_j])$
其中， $j\in\{1,\dots,n\}$ ， $W_1\in\mathbb{R}^{D_{h_1}\times(D_a+D_v)}$ 和 $u\in\mathbb{R}^{(D_e+D_a)\times 1}$ 是可学习的参数， $\sigma$ 是 $\text{ELU}(\cdot)$ 函数， $h_e^0$ 是初始的实体特征。直观上来看，权重标量 $\alpha_j$ 表示实体 $e$ 的初始向量表示 $\textbf{h}_e^0$ 与属性 $\textbf{a}_j$ 的相似度，而 $\textbf{h}_e^1$ 是基于 $\alpha$ 对所有 $\textbf{a}$ 和 $\textbf{v}$ 的加权求和。

3.2 Mean Aggregator

Attributed Value Encoder是用来聚合实体 $e$ 的属性三元组，而Mean Aggregator则是用于聚合关系三元组中相邻实体的信息。基于关系三元组，实体 $e$ 的相邻实体定义为 $\mathcal{N}(e)=\{j|\forall(j,r,e)\in T^r or \forall(e,r,j)\in T^r,\forall r\in R\}$ 。那么，在给定 $l - 1$ 层的隐藏状态 $\textbf{h}_e^{l-1}$ 的情况下，Mean Aggregator定义为
$\textbf{h}_e^l=\sigma(\textbf{W}_l\text{MEAN}(\{\textbf{h}_e^{l-1}\}\cup\{\textbf{h}_j^{l-1},\forall j\in\mathcal{N}(e)\}))$
其中， $\textbf{W}_l\in\mathbb{R}^{D_{h_l}\times D_{h_{l-1}}}$ 是可学习矩阵， $\text{MEAN}(\cdot)$ 向量的均值函数， $\sigma$ 是非线性函数 $\text{ReLU}(\cdot)$ 。

4. 图对齐(Graph Alignment)

图对齐(Graph Alignment)通过减少种子等价实体间距离的方法，实现了将两个知识图谱(KG)对应通道的向量表示统一的同一个向量空间的效果。具体来说，通过在实体嵌入空间中搜索实体 $e$ 或者 $e^{'}$ 的最近邻来为正样本 $(e,e')\in\psi^s$ 生成对应的负样本，然后使用通道 $GC^k$ 的最终输出向量 $h_e^L$ 作为实体 $e^k$ 的embedding向量。最后，每个通道按下面的目标函数进行优化：
$\mathcal{L}_k=\sum_{(e,e')\in\psi^s}(\sum_{e_*\in \text{NS}(e)}[d(e^k,e'^k)-d(e_*^k,e'^k)+\gamma]_{+}+\sum_{e'_*\in \text{NS}(e')}[d(e^k,e'^k)-d(e^k,e'^k_*)+\gamma]_+)$
其中， $\psi^k$ 是种子等价实体， $\text{NS}(e)$ 是实体 $e$ 的负样本， $[\cdot]_+=\text{max}\{\cdot,0\}$ ， $d(\cdot,\cdot)=1-cos(\cdot,\cdot)$ 表示consine相似度， $\gamma$ 是间隔超参数。

直觉上，上面的loss分布为实体 $e$ 和 $e^{'}$ 生成一些负样本，然后减小正样本间距离的同时加大负样本间距离。

5. 通道集成(Channel Ensemble)

基于前面得到的实体embedding，可以为每个通道推断出相似度矩阵 $S^k\in\mathbb{R}^{|E|\times|E'|},k=\{1,2,3,4\}$ ，其中 $S_{e,e'}^{k}=cos(e^k,e'^k)$ 是 $e\in E$ 和 $e'\in E'$ 的cos相似度。论文基于 $S^k$ 提出了2种方法将4个通道的相似度矩阵集成为单个相似度矩阵 $S^*$ 的方法。

Average Pooling

这里假设每个通道均有相同的重要性，令 $S^*=\frac{1}{4}\sum_{k=1}^4\tilde{S}^k$ ，其中 $\tilde{S}^k$ 是标准化的 $S^k$ ，即
$\tilde{S}^k=\frac{S^k-mean(S^k)}{std(S^k)}$
SVM

利用SVM来学习通道的重要度，然后加权求和
$\textbf{S}^*=\sum_{k=1}^4w_k\textbf{S}^k$
其中，权重 $\textbf{w}=[w_1,w_2,w_3,w_4]$ 通过下面的方式训练获得，
$\mathcal{L}_{svm}=C\sum_{l=1}^m[y_l\cdot max(0,1-\textbf{w}^T\textbf{x}_l)+(1-y_l)\cdot(0,1+\textbf{w}^T\textbf{x}_l)]+\frac{1}{2}\textbf{w}^T\textbf{w}$
其中， $\textbf{x}_l=[S^1_{e,e'},S^2_{e,e'},S^3_{e,e'},S^4_{e,e'}]$ 是相似度分数组成的向量。若 $(e,e')\in\psi^s$ ，标签 $y_l=1$ ，否则 $y_l=0$ 。