[1] 马忠贵,倪润宇,余开航.知识图谱的最新进展、关键技术和挑战[J].工程科学学报,2020,42(10):1254-1266.DOI:10.13374/j.issn2095-9389.2020.02.28.001.
知识图谱全生命周期主要包括3种关键技术:
- 从样本源中获取数据,并将其表示为结构化知识的知识抽取与表示技术
- 融合异源知识的知识融合技术
- 根据知识图谱中已有的知识进行知识推理和质量评估
知识抽取与表示
对于知识图谱首要的问题是:如何从海量的数据提取有用信息并将得到的信息有效表示并储存,即知识抽取与表示
其主要目的是从样本源中抽取特定种类的信息,然后以三元组(主语,谓语,宾语)的形式保存。针对信息抽取的种类不同,知识抽取分为实体抽取、关系抽取和属性抽取,如下是知识图谱的技术架构:
-
实体抽取(命名实体识别)
从样本源中识别出命名实体
- 基于规则与词典的方法
- 基于统计机器学习的方法
- 面向开放域的抽取方法
-
关系抽取
通过实体抽取获得的实体之间往往是离散且无关联的,通过关系抽取,简历起实体之间的语义链接
- 基于模板的关系抽取
- 基于监督学习的关系抽取
- 基于半监督或无监督学习的关系抽取
-
属性抽取
补全实体信息,通过从样本源中获取实体属性信息或属性值,实体属性可以看作是属性值与实体的一种关系,可以通过关系抽取的解决思路获得
知识融合
由于知识来源的不同,导致知识质量参差不齐,知识之间存在冲突或者重叠,因此可以利用知识融合技术对多源知识进行处理,一方面提高知识图谱的质量,另一方面丰富知识的存量。
知识融合方法主要有三个方面:实体消岐、实体对齐和知识合并
-
实体消岐
https://blog.csdn.net/m0_46246301/article/details/122748121
因数据来源复杂,存在着同名异义的实体.例如,名称为“乔丹”的实体既可以指美国著名篮球运动员,也可以指葡萄牙足球运动员,还可以指某个运动品牌.为了确保每一个实体有明确的含义,采用实体消歧技术来使得同名实体得以区分。
- 根据有无目标知识库划分
- 基于无监督聚类的实体消岐
- 基于词袋模型的聚类
- 基于语义特征的聚类
- 基于社会网络的聚类
- 基于百科知识的聚类
- 基于多源异构语义知识融合的聚类
- 基于实体链接的实体消岐
- 基于知识库的实体链接系统
- 基于知识图谱的实体链接系统
- 基于无监督聚类的实体消岐
- 根据有无目标知识库划分
-
实体对齐
在现实生活中,一个事物对应着不止一个称呼。针对这些同义异名的实体,通过实体对齐可以将这些实体指向同一客观事物。
- 基于决策树的自适应属性选择的实体对齐方法
- 全自动的实体对齐框架(候选实体生成器、选择器和清理器,利用搜索引擎)
- 大规模相似性模型
- 同义发现框架
- 基于深度学习的实体对齐方法
- SIF
- RNN
- Attention
- Hybrid
- 基于嵌入表示的实体对齐
- 基于无监督学习的实体对齐
- 多视角的实体对齐
参考文献:[44-51]
-
知识合并
现存的知识库或者知识图谱都是各种机构或者组织根据自己的需求设计创建,其中的知识也存在着多样性和异构性,并且存在很多知识上的重复和错误,因此需要使用知识合并技术。
知识图谱的合并分为:数据层的合并和模式层的合并
- 基于特征嵌入向量的知识合并
- 基于嵌入的半监督跨语言学习方法
- 多通道图神经网络模型
知识推理与质量评估
知识推理技术可以提升知识图谱的完整性和准确性。
知识推理方法包括:
-
基于图结构和统计规则挖掘的推理
基于知识图谱的图结构以及挖掘蕴藏在知识图谱中的规则进行推理
- PRA
- CPRA
- Agent
- Attention
- 深度图传播模型
-
基于知识图谱表示学习的推理
表示模型将知识图谱中相应的实体和关系用向量、矩阵或者张量的形式表示
表示后进行运算完成知识推理任务
- 基于距离的推理模型
- TransE
- TransH
- TransR
- TransF
- 基于语义匹配的推理模型
- RESCAL
- DisMult
- Complex
- ANALOGY
- 基于距离的推理模型
-
基于神经网络的推理
基于神经网络的推理方法将知识图谱中事实元组表示为向量形式送入神经网络中,通过训练神经网络不断提高事实元组的得分,最终通过输出得分选择候选实体完成推理
- NTN(神经张量网络)
- RCNN
-
混合推理
结合多种方法的优势来提升推理效果
- Agent
- ReNN
- IterE
质量评估
通过质量评估技术来对新知识进行筛选,是构建知识图谱中必不可少的环节
- LDIF
- CQUAL
知识图谱应用
知识图谱技术的发展得益于自然语言处理、互联网等技术的发展,而不断完善的知识图谱技术也可以应用到自然语言处理、智能问答系统、智能推荐系统等技术中,进一步促进这些技术的发展。 进一步促进这些技术的发展,而这些技术以及知识图谱技术又可以进一步应用在诸如医疗、金融、电商等垂直行业或领域内,帮助促进行业发展。
- 构建完备的知识图谱可以帮助自然语言理解技术发展
- 短文本嵌入表示后送入卷积神经网络进行分类
- 知识图谱语言模型
- 智能问答系统可以依靠知识图谱中的知识来回答查询
- BERT模型和双向长短期记忆网络结合,条件随机场预测字符标签
- 知识图谱可作为外部信息整合至推荐系统中,使得推荐系统获得推理能力
- 知识图谱注意力网络模型
- 在垂直行业或领域内,知识图谱已开始应用
- 在医疗领域,通过提供更加精确规范的行业数据以及更加丰富的表达,帮助非行业相关人员获取医疗知识的同时也帮助行业人员更直观快捷获取所需医疗知识
- 在金融领域,借助知识图谱检测数据的不一致性,来识别潜在的欺诈风险
- 在电商领域,阿里巴巴已经通过应用知识图谱,建立商品间的关联信息,为用户提供更全面的商品信息和更智能化的推荐,从而提升用户的购物服务与体验
- 知识图谱也在教育、科研、军事等领域中广泛应用
知识图谱的挑战与展望
知识融合技术
目标:将新获得的知识融人知识图谱中
挑战:
- 为了保证融合后知识图谱的质量,首先要提升知识评估的能力.现存的知识评估方法大都是针对静态知识进行评估,缺少动态知识评估手段是目前知识评估面临的一大挑战
- 要解决由自然语言的特殊性引发的知识冗余和缺失问题.当知识图谱不能准确将具有同义异名的实体对齐或将同名异义的实体消歧就会导致知识图谱中出现知识冗余或缺失
- 目前,因自然语言的复杂性,在单一语言的背景下实体对齐和实体消歧的准确率仍然有待提高,针对多语言实体对齐或消歧更是一大挑战
知识推理技术
目标:通过已知的知识推理获得新知识来完善知识图谱
挑战:
- 知识推理的主要对象多是二元关系,通常处理多元关系的方法是将其拆分为二元关系进行推理,然而将多元关系拆分会损失结构信息,如何尽可能完整地利用多元关系中复杂的隐含信息推理是知识推理的一大挑战
- 现有的知识推理往往都是基于大量高质量的数据集训练推理模型,在相应的测试集中测试优化模型来完成推理.除了数据集获取成本高的问题,通过数据集训练的模型的泛化能力也极为有限,而现实世界中人类通过少量样本学习即可完成推理.如何模仿人脑机制实现小样本或零样本学习知识推理也是一大挑战
- 知识图谱中知识的有效性往往受到时间空间等动态因素约束,如何合理利用知识的动态约束信息完成动态推理也是知识推理的一大挑战
知识的表示、存储和查询
挑战:
- 目前,应用在行业领域的知识图谱因为很大程度上依赖人工的参与构建,成本高昂.大多数研究工作主要针对知识图谱的半自动构建,如何自动构建高质量知识图谱是知识图谱应用所面临的一大挑战
- 知识拥有指导功能,利用知识图谱中的知识引导机器学习中的数据学习,从而降低数据依赖打破数据红利损耗殆尽后的僵局,是知识图谱应用面临的一大挑战
- 利用人类易懂的符号化知识图谱,解释各类机器学习特别是深度学习的过程,补足其在可解释性方面的短板,也是知识图谱应用面临的一大挑战
- 未来,能否应用知识图谱中的知识,作为已知的经验,通过训练构建人工智能层面上的心智模型,同样是知识图谱应用的一大挑战
知识图谱中的知识引导机器学习中的数据学习,从而降低数据依赖打破数据红利损耗殆尽后的僵局,是知识图谱应用面临的一大挑战
- 利用人类易懂的符号化知识图谱,解释各类机器学习特别是深度学习的过程,补足其在可解释性方面的短板,也是知识图谱应用面临的一大挑战
- 未来,能否应用知识图谱中的知识,作为已知的经验,通过训练构建人工智能层面上的心智模型,同样是知识图谱应用的一大挑战