知识图谱构建技术综述

知识图谱的定义与架构

知识图谱的定义

知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组。

通过知识图谱,可以实现Web从网页链接向概念链接的转变。

知识图谱的架构

从逻辑上可以划分为2个层次:数据层和模式层。

在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。图数据中有“实体-关系-实体”或者“实体-属性-属性值”两种三元组,所有数据构成庞大的实体关系网络。

模式层在数据层之上,是知识图谱的核心。模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层。

知识图谱构建过程

知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程。

这是一个迭代更新的过程,每一轮迭代包含3个阶段:信息抽取、知识融合以及知识加工

知识图谱有自顶向下和**自底向上**2种构建方法。

  • 自顶向下是从百科类网站等高质量数据源中提取本体和模式信息,加入到知识库中。
  • 自底向上是从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核后,加入到知识库中。

知识图谱的构建技术

信息抽取(information extraction)

信息抽取的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。关键技术包括:实体抽取、关系抽取和属性抽取

实体抽取

实体抽取,也称命名实体识别(named entity recognition,NER),是指从文本数据集中自动识别出命名实体。实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,因此时信息抽取中最为基础和关键的部分。

早期方法:

  • 启发式算法与人工编写规则相结合(Rau)。缺点:耗费大量人力,且可扩展性差。

基于统计

  • 9
    点赞
  • 61
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值