1. 论文信息
知识图谱构建技术综述
刘峤 李杨 段宏 刘瑶 秦志光
出版源:《计算机研究与发展》, 2016, 53 (3):582-600
2. 摘要
- 将知识图谱划分为信息抽取层、知识融合层和知识加工层;
- 对每个层次涉及的关键技术的研究现状进行分类说明;
- 知识图谱构建技术当前面临的重大挑战和关键问题进行了总结。
3. 介绍
知识图谱的历史
知识图谱的概念是由谷歌公司提出的.2012年5月17日,谷歌发布知识图谱项目,并宣布以此为基础构建下一代智能化搜索引擎。
中国科学院计算机语言信息中心董振东领导的知网(HowNet)项目,其知识库特点是规模相对较小、知识质量高、但领域限定性较强。
知识图谱的定义
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。
知识图谱的架构
知识图谱的架构,包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术(体系)架构,后者是本文讨论的重点。
知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素(即事实),并将其存入知识库的数据层和模式层的过程.这是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含3个阶段:信息抽取、知识融合以及知识加工。
4. 知识图谱构建技术
4.1 信息抽取
信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括:实体抽取、关系抽取和属性抽取。
- 实体抽取(命名实体识别NER)
监督学习和规则相结合的办法:Lin等人采用字典辅助下的最大熵算法,在基于Medline论文摘要的GENIA数据集上取得了实体抽取准确率和召回率均超过70%的实验结果。 - 关系抽取
(1) 2007年,华盛顿大学图灵中心的Banko等人