《知识图谱构建技术综述》(刘 峤 李 杨 段 宏 刘 瑶 秦志光,电子科技大学)是博主在入门知识图谱时所看的综述文章之一,感谢刘知远老师在知乎的推荐。本文是读论文时所做的笔记。
1.知识图谱的定义和架构
1.1知识图谱的定义
- 结构化的语义知识库
- 对物理世界的符号表达
- 构建在当前web基础之上的一层覆盖网络
- 优化信息检索
- 通过推理实现概念检索
- 图形化展示经过分类整理的结构化知识
1.2知识图谱的架构
- 逻辑结构
- 数据层
- 知识以事实为单位存放在图数据库
- 事实的基本表达方式:实体~关系~实体 或 实体~属性~属性值
- 模式层
- 存储经过提炼的知识
- 用本体库管理,本体库支持公理、规则和约束条件
- 数据层
- 技术架构
- 自顶向下的构建方式
- 从百科类网站等结构化数据源提取模式和本体信息加入知识库
- 自底向上的构建方式
- 从公开采集的数据中提取资源模式,选择其中置信度较高的新模式,经人工审核加入知识库
- 每一轮加入一条知识,每一轮有三步(见2.1-2.3)
2.知识图谱的构建技术(自底向上)
2.1信息抽取
- 从半结构化或无结构数据源提取结构化信息即实体、关系、属性等,形成本体化的知识表达
2.1.1实体抽取(命名实体识别)
- 历史
- 单一领域知识:启发式算法~有监督的统计机器学习~有监督学习+规则即先验知识(最大熵算法)
- 开放领域:人工建立命名实体分类体系并对实体自动分类
2.1.2关系抽取
- 历史:人工构造语法和语义规则+模式匹配~用有监督机器学习对关系进行建模+最大熵算法~半监督机器学习(以上这些方法都需要预先建立关系的分类系统)~自监督学习(with少量人工标记语料库)~与单一领域算法结合~发掘隐含语义关系
2.1.3属性抽取
- 从不同信息源中采集特定实体的属性信息
- 可将属性抽取视为关系抽取
- 历史:利用关系抽取的方法~基于规则的启发式算法从百科类网站(半结构化数据)提取
2.2知识融合
消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达
2.2.1实体链接
- 把新抽取的实体对象(实体指称项)链接到知识库中正确的实体对象
- 基本思路:从知识库选择一组候选实体对象,链接到相似度最高的那一个
- 集成实体链接:利用实体的共现关系(即出现在同一文档且实体指称相同),同时将多个实体链接到知识库
- 一般流程: