知识图谱构建技术综述

这篇博客概述了知识图谱的定义、架构,重点介绍了自底向上的构建技术,包括信息抽取(实体、关系、属性抽取)、知识融合(实体链接、知识合并)、知识加工(本体构建、知识推理、质量评估)和知识更新。同时,讨论了跨语言知识图谱构建及其应用,并提出了当前面临的问题与挑战。
摘要由CSDN通过智能技术生成

《知识图谱构建技术综述》(刘 峤 李 杨 段 宏 刘 瑶 秦志光,电子科技大学)是博主在入门知识图谱时所看的综述文章之一,感谢刘知远老师在知乎的推荐。本文是读论文时所做的笔记。

1.知识图谱的定义和架构

1.1知识图谱的定义

  • 结构化的语义知识库
  • 对物理世界的符号表达
  • 构建在当前web基础之上的一层覆盖网络
  • 优化信息检索
    • 通过推理实现概念检索
    • 图形化展示经过分类整理的结构化知识

1.2知识图谱的架构

  • 逻辑结构
    • 数据层
      • 知识以事实为单位存放在图数据库
      • 事实的基本表达方式:实体~关系~实体 或 实体~属性~属性值
    • 模式层
      • 存储经过提炼的知识
      • 用本体库管理,本体库支持公理、规则和约束条件
  • 技术架构

  • 自顶向下的构建方式
    • 从百科类网站等结构化数据源提取模式和本体信息加入知识库
  • 自底向上的构建方式
    • 从公开采集的数据中提取资源模式,选择其中置信度较高的新模式,经人工审核加入知识库
    • 每一轮加入一条知识,每一轮有三步(见2.1-2.3)

2.知识图谱的构建技术(自底向上)

2.1信息抽取

  • 从半结构化或无结构数据源提取结构化信息即实体、关系、属性等,形成本体化的知识表达

2.1.1实体抽取(命名实体识别)

  • 历史
    • 单一领域知识:启发式算法~有监督的统计机器学习~有监督学习+规则即先验知识(最大熵算法)
    • 开放领域:人工建立命名实体分类体系并对实体自动分类

2.1.2关系抽取

  • 历史:人工构造语法和语义规则+模式匹配~用有监督机器学习对关系进行建模+最大熵算法~半监督机器学习(以上这些方法都需要预先建立关系的分类系统)~自监督学习(with少量人工标记语料库)~与单一领域算法结合~发掘隐含语义关系

2.1.3属性抽取

  • 从不同信息源中采集特定实体的属性信息
  • 可将属性抽取视为关系抽取
  • 历史:利用关系抽取的方法~基于规则的启发式算法从百科类网站(半结构化数据)提取

2.2知识融合

消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达

2.2.1实体链接

  • 把新抽取的实体对象(实体指称项)链接到知识库中正确的实体对象
  • 基本思路:从知识库选择一组候选实体对象,链接到相似度最高的那一个
  • 集成实体链接:利用实体的共现关系(即出现在同一文档且实体指称相同),同时将多个实体链接到知识库
  • 一般流程:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值