技术动态 | 基于知识图谱嵌入的关系感知集成学习算法

转载公众号 | PaperWeekly


本文介绍《基于知识图谱嵌入的关系感知集成学习算法》(Relation-aware Ensemble Learning for Knowledge Graph Embedding),该论文提出的 RelEns-DSC 方法针对图谱实体间的关系采用分割、搜索和重组策略,显著减小集成权重(即不同模型的贡献比例)的搜索空间。

与现有方法相比,在相同的计算成本下表现出更卓越的性能,并在多个任务上达到最优性能。该论文被 EMNLP 2023 录取,力克蚂蚁金服、斯坦福等研究团队,刷新大规模知识图谱榜单 OGB 记录。

98a1ca546de352daa7cd8becb2217f00.png

论文链接:

https://arxiv.org/abs/2310.08917

代码链接:

https://github.com/LARS-research/RelEns

OGB榜单:

ogbl-wikikg2:

https://ogb.stanford.edu/docs/leader_linkprop/#ogbl-wikikg2

ogbl-biokg:

https://ogb.stanford.edu/docs/leader_linkprop/#ogbl-biokg

f17217dbe30a858ddd2ddc2c2235540e.png

研究背景

知识图谱是一种用于表示和组织知识的图形数据结构,可以有效连接人类对于真实世界的认知与计算机对于物理世界的建模,其涵盖了从社交和评分网络到生物网络的多个领域。因此,随着机器学习技术的兴起,图学习已经在多种应用中得到广泛应用,包括利用社交图谱来理解人际关系,利用城市图谱进行人流轨迹分析,以及利用医药图谱进行药物互作预测。

如下左图所示,知识图谱用于表征医药网络中不同实体(药物、作用、疾病等)之间的关系,并通过这些关系来预测类似于(药物 A, ?, 疾病 D )的关系。

9f510cf8ac1ffa240222a3264b85bc85.png

▲ 图表1. 医药图谱(左)与城市图谱(右)示例

近来,深度学习技术已受到整个社会的广泛关注,其中 GNN(图神经网络)被证明在许多领域中非常有效,并成为图深度学习的主流。目前已有的模型如 GAT、GCN、GraphSage 等,为图学习提供了强大的工具和方法。在这一背景下,关于如何将知识图谱中的信息转化为向量表示(即知识图谱嵌入)并将其与深度学习技术相结合(如下图所示),成为了当前研究中的首要问题。

07d834e7fea40dca0e83d001a4fbbf6d.png

▲ 图表2. 知识图谱嵌入

尽管如此,由于知识图谱中的关系多种多样且复杂,即使现有模型采用不同的评分函数来建模各种关系属性,单一模型仍然难以全面捕捉图谱中的有效信息。如下图所示,我们可以看到在知识图谱的各种拓扑结构下,并没有一种模型能够取得最佳性能。因此,这促使我们提出了一种基于知识图谱嵌入的关系感知集成学习算法——RelEns。

79bdf42110cf44b18262af24932acda7.png

▲ 图表3. 模型的拓扑推理能力

d6153966e13ed8982c2b55ef2327d25b.png

主要内容

集成学习是一种技术,通过组合和重新加权多个模型的预测,旨在提高机器学习任务的性能。先前的研究已经在知识图谱嵌入领域验证了集成学习的有效性 [1,2]。然而,现有的集成方法仅关注了模型之间的权重分配(我们将其称为 SimpleEns),而未考虑不同模型的关系特性。因此,我们的目标是设计一种能够搜索不同关系的特定集成权重的算法。

2.1 关系感知

知识图谱由(头实体、关系、尾实体)这类三元组组成,而知识图谱嵌入模型的学习目标是将正三元组的排名高于负三元组,以准确识别当前图谱中可能被忽略的正三元组 [3]。因此,给定一个排名函数 ,我们希望尽可能让模型在测试集  中给出最佳的预测分数 ,以将更多的正三元组排名  排得越高(即数字越小)。

为了更直观地理解,我们将倒数排名函数  定义为 1/p。为了更好感知图谱中得每种关系,对于每个知识图谱嵌入模型  以及图谱中的关系集 ,我们赋予每一类关系一个可学习的权重 。如此,只要遍历所有关系类型,我们就可以更“深入”地去了解每一个模型与其评估每种关系的最佳权重,我们称之为 RelEns-Basic,其中目标函数如下:

ff6bdb8389e525ecafd4c83d95b844de.png

2.2 分割搜索与合并的搜索算法

与 SimpleEns 相比,RelEns-Basic 需要搜索多达 R 倍的参数。此外,对于不可微分的度量标准,如 MRR(平均倒数排名),通常需要使用零阶优化技术,例如随机搜索和贝叶斯优化 [4] 来解决。然而,这些算法通常需要在搜索空间中对候选项进行采样,受到维度诅咒的影响 [5],随着搜索维度的增加,复杂性可能会呈指数级增长。

因此,如何快速有效地搜索更好的结构是搜索算法需要关注的问题。为了降低成本,我们充分考虑了搜索空间的性质,提出了 RelEns-DSC。我们将 NR 参数搜索空间按照关系类型分成了 R 个独立的 N 参数优化搜索空间,并为每个子空间分别分配相应的权重 。这样,我们可以并行计算每种关系的权重,然后将它们合并,如下图所示。

1effa8207559413a55726e2b52e6be7b.png

▲ 图表4. RelEns-DSC算法架构图

2.3 实验结果

为了验证 RelEns 的可行性,我们分别在 WN18RR、FB15k-237 和 NELL-995 数据集上进行了测试。如图表 5 所示,在相同计算资源下,RelEns 在这三个数据集上表现出色,不仅在不同的度量指标下超越了基线模型,还超过了通常使用的集成方法 SimpleEns。

be2e855eec09c6403ece56d167f30086.png

▲ 图表5. WN18RR、FB15k-237与NELL-995数据集结果对比

相对于 RelEns,SimpleEns 对于模型的集成权重分配更加粗糙。这主要是因为 SimpleEns 仅考虑了模型层面的权重分配,从而在一定程度上忽略了特定关系的重要性,进而对模型性能产生了不利影响。相反,RelEns 关注每种关系的认知,避免了信息的丢失。从实验结果和权重分配情况(见下图)来看,基于关系感知的集成算法更为有效,更全面地捕捉了图谱中的有用信息。

d27377e2446872937e2ab7f45dd2671d.png

▲ 图表6. 不同关系中模型的集成权重

国际知名的图学习标准 OGB(Open Graph Benchmark)[6] 挑战赛由谷歌、脸书、微软、加州大学洛杉矶分校等多个机构共同发起、支持和参与。该挑战赛提供了一个公平、公开和通用的基准测试套件,被广泛认可为目前图学习领域的代表性基准数据集。

本算法在其中的百科知识图谱 ogbl-wikikg2 和生物医学知识图谱 ogbl-biokg 数据集中取得了第一名的成绩(详见下图),超越了奇虎 360、UCL、蚂蚁集团、Mila 等知名团队,充分证明了其在知识图谱领域表现出的卓越性能和潜力。

c54bb2c4560b2248455373906f19e1d3.png

▲ 图表7. RelEns在OGB上的实验效果

9dad174bdb55697b9e2c60a9a4e61337.png

未来工作

本文证明了基于知识图谱嵌入的关系感知集成学习算法有效解决了知识图谱完成中的实体预测任务中的集成问题。在未来的工作中,我们会进一步讨论其他重要的图学习任务,包括实体或节点分类、关系预测和图分类。另外,将本算法扩展到更多元的应用场景,比如用于优化搜索引擎或应用于推荐系统等等,也是潜在研究方向。

outside_default.png

参考文献

outside_default.png

[1] Shaoxiong Ji, Shirui Pan, Erik Cambria, Pekka Marttinen, and S Yu Philip. 2021. A survey on knowledge graphs: Representation, acquisition, and applications. IEEE transactions on neural networks and learning systems, 33(2):494–514.

[2] Zhiqing Sun, Zhi-Hong Deng, Jian-Yun Nie, and Jian Tang. 2019. Rotate: Knowledge graph embedding by relational rotation in complex space. In ICLR.

[3] Quan Wang, Zhendong Mao, Bin Wang, and Li Guo.2017. Knowledge graph embedding: A survey of approaches and applications. TKDE, 29(12):2724– 2743.

[4] James Bergstra, Rémi Bardenet, Yoshua Bengio, and Balázs Kégl. 2011. Algorithms for hyper-parameter optimization. In NIPS, pages 2546–2554.

[5] Mario Köppen. 2000. The curse of dimensionality. In 5th Online World Conference on Soft Computing in Industrial Applications, volume 1, pages 4–8.

[6] Open Graph Bench:https://ogb.stanford.edu/


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

5c3259b816c0f634e6befdf5d7d03993.png

点击阅读原文,进入 OpenKG 网站。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值