知识图谱的最新进展、关键技术和挑战

本文综述了知识图谱的全生命周期技术,包括知识抽取与表示、知识融合、知识推理和应用。知识抽取涉及实体、关系和属性的抽取,知识融合解决实体消歧、对齐和知识合并问题,知识推理通过图结构、表示学习和神经网络方法进行。当前挑战包括知识融合的动态评估、知识推理的泛化能力和知识应用的自动化构建。
摘要由CSDN通过智能技术生成

知识图谱的最新进展、关键技术和挑战

人工智能技术与咨询 

本文来自《 工程科学学报 》,作者马忠贵等

随着知识的不断积累和科学的飞速发展,人类社会进行了多次改变社会结构的重大生产力革命。最近的生产力革命正是由Web技术发展引发的信息革命。伴随着Web技术不断地演进与发展,人类即将迈向基于知识互联的崭新“Web3.0”时代[1]。受语义网络(Semantic network)和语义网(Semantic web)的启发,Google公司提出了知识图谱(Knowledge graph)[2],目的是为了提高搜索引擎的智能能力,增强用户的搜索质量和体验。随后,这一概念被传播开来,并广泛应用于医疗、教育、金融、电商等行业中,推动人工智能从感知智能向认知智能跨越。目前,已经涌现出一大批知识图谱,其中国外具有代表性的有YAGO[3]、DBpedia[4]、Freebase[5]、NELL[6]、Probase[7]等;国内出现了开放知识图谱项目OpenKG[8],中文知识图谱CN-DBpedia[9]、zhishi.me[10]等。知识图谱的本质是连接实体间关系的图,即揭示实体之间关系的语义网络[11],普遍采用资源描述框架(Resource description framework,RDF)来描述知识。知识图谱全生命周期主要包括3种关键技术:(1)从样本源中获取数据,并将其表示为结构化知识的知识抽取与表示技术;(2)融合异源知识的知识融合技术;(3)根据知识图谱中已有的知识进行知识推理和质量评估。

近几年,越来越多的学者将目光聚焦在了认知智能上,知识图谱受到越来越广泛的关注。除了知识图谱的技术文章爆发式增长之外,综述文章也越来越多。文献[11]针对知识图谱的相关技术进行了全面解析,文献[12-13]综述了知识图谱核心技术的研究进展以及典型应用,文献[14]总结了面向知识图谱的推理方法并展望了未来的研究方向,文献[15]定义知识图谱与本体的关系并简述了已开发的国内外知识图谱。2019年年末和2020年年初,国内有3本知识图谱的专著问世[16-18],我们有了写作本论文的动机。与已有的综述文献相比,本文的主要贡献如下:梳理了知识图谱全生命周期技术,从知识抽取与表示、知识融合、知识推理、知识应用4个层面展开综述,建立方法论思维。限于篇幅,针对知识图谱的4个关键技术进行了取舍,重点介绍了知识融合与知识推理技术的最新进展。同时,简要介绍了知识图谱目前的挑战并展望了未来的发展方向。

1.   知识抽取与表示

对于知识图谱而言,首要的问题是:如何从海量的数据提取有用信息并将得到的信息有效表示并储存,就是所谓的知识抽取与表示技术。知识抽取与表示,也可以称为信息抽取,其目标主要是从样本源中抽取特定种类的信息,例如实体、关系和属性,并将这些信息通过一定形式表达并储存。对于知识图谱,一般而言采用RDF描述知识,形式上将有效信息表示为(主语,谓语,宾语)三元组的结构,某些文献中也表示为(头实体,关系,尾实体)的结构。针对信息抽取种类的不同,知识抽取又可分为实体抽取、关系抽取以及属性抽取。图1展示了知识图谱的技术架构。

图片

图  1  知识图谱的技术架构

Figure  1.  Architecture of the Knowledge Graph

下载: 全尺寸图片 幻灯片

实体抽取也称为命名实体识别,主要目标是从样本源中识别出命名实体。实体是知识图谱最基本的元素,实体抽取的完整性、准确率、召回率将直接影响知识图谱的质量[12]。文献[19]将实体抽取的方法归纳为3种:(1)基于规则与词典的方法。通常需要为目标实体编写相应的规则,然后在原始语料中进行匹配,Quimbaya等[20]提出了一个基于词典的实体抽取方法,并应用于电子健康记录。(2)基于统计机器学习的方法。主要利用数据来对模型进行训练,然后再利用训练好的模型去识别实体,Liu等[21]将K近邻(K-nearest neighbors,KNN)算法和线性条件随机场(Conditional random fields,CRF)模型结合来识别实体。(3)面向开放域的抽取方法。主要是针对海量网络数据,Jain与Pennacchiotti[22]提出通过已知实体的语义特征来识别命名实体,并提出实体聚类的无监督开放域聚类算法。Zhang与Elhadad[23]提出一个无监督的实体抽取方法,利用术语、语料库统计信息以及浅层语法知识从生物医学中抽取实体。

通过实体抽取获取的实体之间往往是离散且无关联的。通过关系抽取,可以建立起实体间的语义链接。关系抽取技术主要分为3种:(1)基于模板的关系抽取。使用模板通过人工或者机器学习的方法抽取实体关系,虽然准确率高且针对性强,但是其也具有不适用于大规模数据集、低召回率、难以维护等缺点。(2)基于监督学习的关系抽取。将大量人工标注的数据送入模型中训练,刘克彬等[24]根据本体知识库训练模型,在开放数据集中对关系进行抽取,取得了极高的准确率。Sun与Han[25]提出了名为FTK(Feature-enriched tree kernel)的模型,利用设计好的有效特征训练,计算关系实例相似度并通过支持向量机对关系进行分类。(3)基于半监督或无监督学习的关系抽取。基于少量人工标注数据或者无标注数据,使用最大期望(Expectation maximization)等算法的半监督关系抽取方法进行关系抽取。Sun与Grishman[26]提出名为LGCo-Testing的主动学习系统,Fu与Grishman[27]则进一步优化了这个系统。Ji等[28]提出基于句子级注意力和实体描述的神经网络关系抽取模型APCNNS。该模型实际采用了多示例学习的策略,将同一关系的样例句子组成样例包,关系分类是基于样例包的特征进行的。实验结果表明,该模型可以有效地提高远程监督关系抽取的准确率。在采用多示例学习策略时,有可能出现整个样例包都包含大量噪声的情况。针对这一问题,Feng等[29]提出了基于强化学习的关系分类模型CNN-RL(Convolutional neural networks and reinforcement learning),该模型包括2个重要模块:样例选择器和关系分类器。实验结果表明:该模型获得了比句子级卷积神经网络和样例包级关系分类模型更好的结果。最近的工作通过强化学习来处理句子级的去噪,这种学习将来自远程监督的标签视为事实。然而,很少有工作专注于直接校正噪声标签的标签级降噪。Sun等[30]提出了一种基于强化学习的标签去噪方法,用于远程监督关系提取。该模型由两个模块组成:抽取网络和策略网络。标签去噪的核心是在策略网络中设计一个策略来获取潜在标签,可以在其中选择使用远距离监督标签或从抽取网络预测标签的操作。实验结果表明,强化学习对于噪声标签的校正是有效的,并且所提出的方法可以胜过最新的关系抽取系统。

属性抽取的目标是补全实体信息,通过从样本源中获取实体属性信息或属性值。实体属性可以看作是属性值与实体间的一种关系,因而可以通过关系抽取的解决思路来获得。Wu与Weld[31]利用百科类网站的半结构化数据,训练抽取模型,之后将抽取模型应用在非结构化数据中抽取属性。Chang等[32]提出了基于张量分解的关系抽取方法,这一方法也可以应用在属性抽取中,通过利用关于实体种类相应的领域知识来更好地获得实体所缺少的属性值。

2.   知识融合

通过知识抽取与表示,初步获得了数量可观的形式化知识。由于知识来源的不同,导致知识的质量参差不齐,知识之间存在着冲突或者重叠。此时初步建立的知识图谱,知识的数量和质量都有待提高。应用知识融合技术对多源知识进行处理,一方面提升知识图谱

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值