知识图谱综述

从知识覆盖面分为两种:通用知识图谱和行业知识图谱(垂直知识图谱:面向特定领域)。行业知识图谱基于行业数据构建,强调知识的深度。行业知识图谱可以看作基于语义技术的行业知识库,潜在使用者为行业的专业人员。

构建知识图谱迭代过程,根据生命周期,每一轮迭代分为三个阶段:信息抽取、知识融合和知识存储和检索

知识抽取分为实体抽取、关系抽取、和事件抽取。抽取方法分为基于规则和基于学习两类

知识图谱相关技术:

知识融合核心步骤是实体连接,分为两个步骤:候选实体生成和候选实体排名。候选实体生成中,基于名称词典方法最常用。候选实体排名中,算法分为两类:有监督学习(目前基于学习排名和基于概率的算法效果较好)和无监督学习(基于信息检索的方法)

知识存储的方式主要基于关系型数据库的存储和基于图数据库的存储和分布式存储

知识图谱相关技术

  1. 知识图谱架构

定义:知识图谱是一个大型知识库,用于统一规范将世界知识联系和存储。知识图谱具有一定的推理能力,可以帮助人类发现新知识和事实。知识图谱的图结构雷士人知识的结构。

1.1三元组表示:

能够使主语通过谓语和任意宾语联系起来.

    1. 知识图谱架构

逻辑上,知识图谱划分为两个层次:数据层和模式层。

数据层主要有一系列的事实组成,知识以事实为单位进行存储。比如用(实体1,关系,实体2)、(实体,属性,属性值)三元组来表达事实。

模式层使构建在数据层之上的,通过实体来规范数据层。本体是结构化知识库的概念模板,通过本体库构架鄂知识库不仅结构较强,而且冗余程度较小。

知识图谱构建模式分为自顶向下和自底向上两种。

自顶向下使指先定义本体库和数据模式,再将一系列事实添加刀知识库中,即先模式层再数据层。

自底向上为初步抽取文本分析数据,由数据驱动,设计知识库的模式层,即先数据层再模式层。

通用知识图谱大多采用自底向上的构建方式,然而,对于锤直领域知识图谱,需要满足特定行业专业知识和高质量数据,同时应对复杂和多变的业务需求,因此多采用自顶向下的模式结构。

  1. 知识表达

        知识表示指再人工系统中我们采用什么方式编码知识、信仰、行为、感觉、目标、渴望、偏好以及心理活动。可以从三个方面评价一个知识表示方法:清晰性、准确性、和自然性。

2.1 语义网表示

语义网络利用节点和带标记的边(语义网中的弧)构成的有向图描述事件、概念、状况、动作及客体之间的关系。带标记的有向图能十分自然的描述客体之间的关系。

语义网络中的节点表示各种事物,概念,情况,属性,动作状态等,每个节点可以带有若干属性。此外,节点还可以是一个语义子网络,形成一个多层次的嵌套结构。

语义网络中的弧表示各种语义联系,指明所连接的节点间某种语义关系。节点和弧都必须带有标识,以便区分各种不同对象以及对象间各种不同的语义联系。最简单的语义网络是一个三元组:(节点1,弧,节点2)。

语义网络优点:

1)结构性:语义网络是一种结构化的知识表示方法,能把事物的属性以及事物间的各种语义联想显式地表示出来。

2)联想性:它最初是作为人类联想记忆糢型提出来的。

3)自然性:直现地把事物的属性及其语义联系表示出来,便于理解,自然语言与语义网络的转换比较容易实现,故语义网络表示法在自然语言理解系统中的应用最为广泛。

2.2表示学习

知识学习是将知识库中的实体和关系投影到统一的空间,用稠密的低维向量表示其语义信息。该方法可以在低维空间中高效计算实体之间、关系之间、以及实体和关系之间的语义联系,有效解决数据稀疏问题。此外,表示学习模型可以将不同来源的异质信息投射到同一个语义空间中,从而实现了多个知识库的有机融合。

      1. 距离模型

结构表示方法将头实体G和尾实体^通过关系1?的两个矩阵投影到同一空间,投影向量之间的距离体现了两个实体在关系r下的语义相关度。对于每个三元组(h,r,t),损失函数为:

其中Mr,1,Mr,2∈Rd✖d是关系r对于头实体和尾实体投影矩阵。

      1. 单层神经网络

单层神经网络模型是结构表示的改进版本,利用神经网络的非线性减轻结构表示协同性差的问题。因此损失函数如下:

其中MrT属于Rk为关系r的向量表示,g()是tanh函数。

2.2.3  翻译模型

      自2013年Mikolov等提出了word2vec词向量表示学习模型之后,表示学习在自然语言处理领域引发了广泛关注。word2vec模型体现了词向量空间存在平移不变现象,例如:

其中C(w)表示该模型学习的单词w的词向量。

受到该现象启发,Bordes等人提出了TransE模型,如上图所示,对于三元组(h,r,t),TransE将对实体Lh和尾实体之Lt间的平移向量作为关系r的向量Lr,即:

TransE希望Lh+Lr和Lt越近越好,因此损失函数如下:

我们也可以将Lr理解为从Lh和Lt的翻译,因此TransE被称为翻译模型。

      

  1. 知识抽取

知识抽取涉及的“知识”通常是清楚的、事实性的信息,这些信息来自不同的来源和结构,而对不同数据源进行的知识抽取的方法各有不同,从结构化数据中获取知识用D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等,从链接数据中获取知识用图映射,难点在于数据对齐,从半结构化数据中获取知识用包装器,难点在于wrapper的自动生成、更新和维护,知识存储。

信息抽取相关会议和数据集MUC、ACE、KBP、SemEval等。

中文开放知识图谱OpenKG。

3.1实体抽取

实体抽取或者命名实体识别(NER)主要抽取的是文本中的原子信息元素,如人名、组织/机构、地理位置、事件/日期/字符值、金额值等。实体抽取任务主要有两个关键步骤:找命名体实体,并进行分类。命名实体作为索引和超链接,将网络通过语义化链接。实体抽取多作为系统的准备步骤,比如关系提取、情感分析、QA系统等都需要在现在文本识别出明明提实体。

3.2 关系抽取

关系抽取是自然语言处理的任务之一。该任务的定义是,给定标注了两个实体的句子,返回两个实体之间的语义关系。关系抽取任务得到的结果常用于问答系统和知识图谱等应用,是基础且重要的自然语言处理任务。

 

4. 知识存储工具

知识存储的任务就是将这个矩阵以尽量小的代价存储起来,并且进行查询、添加、删除等操作的效率要尽量的高。在知识存储中,需要综合考虑写入性能、查询性能、对推理的支持等方面。

常用工具:Apache Jena TDB、Apache Jena SDB、Eclipse RDF4J、Neo4j、Apache TinkerPop、

 

5. 基于知识图谱的问答系统

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值