【1】知识图谱概述

1.知识图谱的表示形式

RDF形式化地表示这种三元关系(即<主语S,谓语P,宾语O>)

RDF(Resource Description Framework),即资源描述框架,是W3C制定的,用于描述实体/资源的标准数据模型。RDF图中一共有三种类型,International Resource Identifiers(IRIs)blank nodes literals

下面是SPO每个部分的类型约束:

1. Subject 可以是 IRI blank node
2. Predicate IRI

Object三种类型都可以

2.知识图谱的典型应用领域

 3.知识图谱在大厂的应用

4.知识图谱的一般构建流程

知识图谱的构建技术主要有自顶向下和自底向上两种。

其中自顶向下构建是指借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库里。

而自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的信息,加入到知识库中

5.图谱构建流程

(1)梳理业务,构建本体(必须)

根据业务需求,我们需要回答几个问题:

1、是否需要用知识图谱?成本怎么样,能达到怎么的效果?

2、是否有能力构建知识图谱?数据、团队等情况是否能支撑?

3、如果有必要,如何根据业务梳理一套本体框架?

(2)数据模型构建

知识图谱的数据整体上可以分为数据模型具体数据。

数据模型就是知识图谱的数据组织框架,不同的知识图谱,会采用不同的数据模型。对于行业知识图谱来说,行业术语、行业数据都相对比较清晰,可以采用自顶向下的方式来建设知识图谱,也就是先确定知识图谱的数据模型,然后,根据数据模型约定的框架,再补充数据,完成知识图谱的建设。数据模型的构建,一般都会找一个基础的参考模型,这个参考模型,可以参照行业的相关数据标准,整合标准中对数据的要求,慢慢形成一个基础的数据模型,再根据实际收集的数据情况,来完善数据模型。也可以从公共知识图谱数据模型中抽取,将与行业有关的数据模型从公共知识图谱数据模型中提取出来,然后结合行业知识进行完善

(3)给本体补充实例数据

①结构化数据处理

对于结构化数据,一般是把一个表、一个类别的去对应,一行数据相当于一个类的实例,每个字段就相当于类的属性,利用相关的转化工具可以把这个过程进行转化,比如D2RQ,可以把表数据转化成虚拟的RDF数据,使数据在RDF层面实现数据格式的统一

②半结构化数据处理

半结构化数据,主要是指那些具有一定的数据结构,但需要进一步提取整理的数据。比如百科的数据,网页中的数据等。对于这类数据,主要采用包装器的方式进行处理

(包装器是一个能够将数据从HTML网页中抽取出来,并且将其还原为结构化的数据的软件程序。对于一般的有规律的页面,可以使用正则表达式的方式写出XPathCSS选择器表达式来。但这样的通用性很差,因此也可以通过包装器归纳这种基于有监督学习的方法,自动的从标注好的训练样例集合中学习数据抽取规则,用于从其他相同标记或相同网页模板抽取目标数据。)

③非结构化数据(主要是文本数据)

这里假设数据库中已经存在如下的如下的单实体以及三元组数据,目前的主要任务就是从文中抽取相关的数据,来补充现有的知识库。

知识融合

知识融合,简单理解,就是将多个知识库中的知识进行整合,形成一个知识库的过程,在这个过程中,主要需要解决的问题就是实体对齐。不同的知识库,收集知识的侧重点不同,对于同一个实体,有知识库的可能侧重于其本身某个方面的描述,有的知识库可能侧重于描述实体与其它实体的关系,知识融合的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。

⑤知识存储

知识存储 分为两种存储

1. 基于RDF的存储

2. 基于图数据库的存储

一个描述逻辑系统由四个基本部分组成: 最基本的元素:概念、关系、个体;TBox术语集:概念术语的公理集合; Abox断言集:个体的断言集合;TBox ABox上的推理机制。

 知识推理

知识推理,就是根据已有的数据模型和数据,依据推理规则,获取新的知识或者结论,新的知识或结论应该是满足语义的。知识推理,依据描述逻辑系统实现。描述逻辑(Description Logic)是基于对象的知识表示的形式化,也叫概念表示语言或术语逻辑,是一阶谓词逻辑的一个可判定子集。

⑦质量评估

质量评估,就是对最后的结果数据进行评估,将合格的数据放入知识图谱中。质量评估的方法,根据所构建的知识图谱的不同,对数据要求的差异而有所差别。总的目的是要获得合乎要求的知识图谱数据,要求的标准根据具体情况确定。

6、知识图谱的关键技术

(1)自然语言处理(NLP

分词

命名实体识别

词向量模型

(2)知识图谱核心技术:

知识表示与建模

数据源获取

知识抽取

知识融合

知识加工

知识存储

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值