技术动态 | 知识图谱如何时序建模?北工大等最新《时态知识图谱》综述,详述TKG的分类、进展与前景...

笔记整理 | 专知


c19f8969cd55e7a6072bc9be3cfd3b47.png

时态特性在大量知识中都有明显的表现,这强调了时态知识图谱(TKGs)在学术和工业中的关键作用。然而,由于三个主要原因,TKGs经常受到不完整性的困扰:新知识的持续出现、从非结构化数据中提取结构化信息的算法弱点,以及源数据集中的信息缺失。因此,时态知识图谱补全(TKGC)的任务受到了越来越多的关注,其目的是基于现有信息预测缺失的项目

在这篇论文中,我们提供了TKGC方法及其细节的综合评论。具体来说,这篇文章主要包括三个部分,分别是:1) 背景,涵盖TKGC方法的初步知识、训练所需的损失函数、以及数据集和评估协议;2) 插值,通过相关的可用信息估计和预测缺失的元素或元素集。它进一步基于如何处理时态信息对相关TKGC方法进行分类;3) 外推,通常关注连续的TKGs并预测未来事件,然后根据它们使用的算法对所有外推方法进行分类。我们进一步指出了TKGC的挑战,并讨论了TKGC的未来研究方向。

知识图谱(KGs)是结构化的多关系知识库,通常包含一组事实。知识图谱中的每一个事实都以三元组 (s, r, o) 的形式存储,其中 s 和 o 分别表示头实体和尾实体,而 r 表示连接头实体和尾实体的关系。例如,给定一个三元组(Barack Hussein Obama,President of,USA),“Barack Hussein Obama” 和 “USA” 分别是头实体 s 和尾实体 o,而 “President of” 表示关系 r。目前,大规模的知识图谱在人工智能和数据挖掘应用中得到了广泛的应用,包括交通流量预测[1]、信息检索[2]和对话系统[3]。

https://www.zhuanzhi.ai/paper/02c7a956a94621231e06b69db279de20

通常,KGs中的事实是特定于时间的,并且仅在特定时期内有效,这使得知识受到时间的限制。例如,三元组(Barack Hussein Obama,President of,USA)仅在[2009, 2017]期间有效。因此,包含时间标签的KGs形成时态知识图谱(TKG),近年来受到了很大的关注。TKG的基本单位是四元组(s, r, o, t),它在三元组旁边引入了时间信息。例如,四元组可以表示为(Barack Hussein Obama,President of,USA,[2009, 2017])。

随着事件不断发展,TKGs可以定期更新以捕捉现实世界中的动态变化。TKGs(例如 ICEWS [4] 和 GDELT [5])可能包含数百万甚至数十亿的四元组。然而,尽管它们很庞大,这些TKGs由于三个主要原因仍然是不完整的。首先,源数据集经常缺乏全面的信息。其次,用于提取实体和关系的算法在处理不同形式的非结构化数据时面临挑战,使它们效果不佳。最后,由于自然中正在进行的事件,知识持续地发展。知识图谱的不完整性严重妨碍了知识驱动系统的有效性,从而强调了时态知识图谱补全(TKGC)作为一个关键任务的重要性。

TKGC任务旨在根据可用信息预测缺失的项目,例如,可以从现有的四元组 (Barack Hussein Obama, President of, USA, [2009, 2017]) 和 (Donald Trump, President of, USA, [2017, 2021]) 中推断出 (Donald Trump, succeeded, Barack Hussein Obama, 2017)。具体来说,根据是否预测未来的事实,我们将现有的TKGC文献分类为插值方法和外推方法。更具体地说,插值方法通常通过相关的已知事实来估计未知的知识,而外推方法则旨在估计未来的未知知识。

70c1f26b59b4b4e458a9ac76e3b0e10e.png

图1举例说明了这两种不同的情境。每种TKGC方法都面临需要解决的特定重要挑战。对于插值方法,出现两个重要的挑战:如何有效地将时间信息融入KGs的演化过程,以及如何处理时间戳以充分利用其语义信息。尽管一些TKGC方法旨在探索时间信息的语义,但它们通常独立地对待时间信息,未能捕获与事实相关的隐藏的语义信息。此外,现有的TKGC方法简单地将时间信息与事实相关联,这很难反映在演化过程中。另一方面,外推方法面临的挑战是如何有效地减少异常历史信息对TKG嵌入的影响。这些方法探索历史快照中的结构和时间信息,以进一步帮助预测未来事件。然而,异常历史信息的存在严重妨碍了对未来事件的准确预测。

为了应对这些挑战,最近出现了越来越多的研究。例如,Ma等人[6]采用了词袋和Bi-LSTM算法来充分探索时间信息的潜在语义。Goel等人[7]提出了一个称为DE-SimplE的方法,该方法采用历时嵌入函数将时间信息融入事实中。这种方法有效地捕获了KGs的演化过程,从而实现了更为准确的预测。然而,重要的是要认识到仍然存在尚未解决的问题,这些问题需要引起关注并应予以优先考虑。为了促进该领域的进一步进展,提供现有TKGC方法的全面总结和比较显得尤为重要。在本文中,我们提供了TKGC方法的概述,并进行了细致的分类。我们还总结了常用于评估TKGC方法的基准数据集,并介绍了评估协议。此外,我们分析了该领域的挑战,并讨论了这一迅速崭露头角的话题的未来方向。通过进行这一全面分析,我们旨在为TKGC研究的进步做出贡献,并为研究人员和实践者提供洞见。

我们的主要贡献总结如下:

  1. 全面调查。我们系统地总结了所有TKGC文献,特别关注最近的研究。此外,我们详细描述了每一种TKGC方法,进行了必要的比较,并总结了使用的技术和代码。

  2. 分类和新的分类法。我们为TKGC提供了全面的总结和细致的分类。在高层次上,我们将当前的TKGC文献分类为两类,根据它们是否预测未来事件:插值方法和外推方法。对于插值方法,我们根据处理时间信息的方式将它们进行划分。对于外推方法,我们根据它们使用的算法进行分类。

  3. 未来方向。我们指出了这个快速增长领域的未来研究方向,并为TKGC提供了指导方针和建议。

本文的其余部分按以下方式组织。第2部分简要回顾了TKGC的背景。第3部分详细描述了TKGC的概述和分类。在第4部分,我们介绍了插值方法,并详细分类了插值方法。同样,第5部分介绍了外推方法。随后,我们在第6部分讨论了TKG在推荐和问答系统中的应用。第7部分讨论了挑战和未来的研究方向。最后,我们在第8部分总结了本文。

a7f174b0502cc33d523dc44510e4e81e.png

基于插值的TKGCs

插值[25],[26]是一种统计方法,使用相关已知值来估算未知值或值集。通过识别数据集内的一致趋势,就有可能合理地估算那些尚未明确计算的值。基于插值的TKGC方法通常通过分析TKGs中的已知知识来完成缺失的项目。我们根据它们处理时间信息的方式将其分类如下:1) 依赖时间戳的TKGC方法不对时间戳进行操作。2) 特定于时间戳功能的TKGC方法应用特定于时间戳的函数来获得时间戳的嵌入或实体和关系的演变。3) 基于深度学习的TKGC方法使用深度学习算法对时间信息进行编码,并研究实体和关系的动态演变。

0894cbce6f18a70331316ae1631a10a2.png

基于外推的TKGCs

外推[27],[28]主要关注预测当前可访问数据之外的“未来”未知值。基于外推的TKGC方法专注于连续的TKGs,通过学习历史快照中的实体和关系嵌入来预测未来的事件。我们根据它们使用的算法将它们分类如下:1) 基于规则的TKGC方法应用逻辑规则来推理未来的事件。2) 基于图神经网络的TKGC方法通常使用GNN和RNN来探索TKG中的结构和时间信息。3) 基于元学习的TKGC方法设计元学习者来指导模型的学习过程。4) 基于强化学习的TKGC方法引入强化学习策略,确保模型更好地达到其训练目标。在接下来的部分(第4部分和第5部分),我们将详细介绍这些TKGC分类。

ea601d6d8ae35642c2273d6f48b31f00.png

结论

时态知识图谱补全(TKGC)是一个新兴且活跃的研究方向,已经吸引了学术界和工业界越来越多的关注。在本文中,我们对这一领域的最新研究进行了全面的概述。首先,我们详细介绍了插值方法,并根据它们处理时间信息的方式进一步对其进行了分类。然后,我们进一步描述和分类了外推方法,基于它们如何预测未来的事件。最后,我们讨论了这一领域的挑战和未来的方向。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

8758cdd3791e6b9e2e1869cea7ae97cb.png

点击阅读原文,进入 OpenKG 网站。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值