知识图谱技术综述-学习笔记

目录

1 知识图谱的定义与架构

1.1 KG的定义  

       通用KG

       行业KG

1.2 KG的架构

(1)逻辑结构

(2)KG的体系结构

 2 大规模知识库

2.1 开放链接知识库

2.2 垂直行业知识库

3 KG的关键技术

3.1 知识抽取

(1)实体抽取

(2)关系抽取

       1)开放式实体关系抽取

       2)基于联合推理的实体关系抽取

(3)属性抽取

3.2 知识表示

(1)应用场景

(2)代表模型

       1)距离模型

       2)单层神经网络模型

       3)双线性模型

       4)神经张量模型

       5)矩阵分解模型 

       6)翻译模型

(3)复杂关系模型 

       1)TransH模型

       2)TransR模型

       3)TransD模型

       4)TransG模型

       5)KG2E模型

 (4)多源信息融合

3.3 知识融合

(1)实体对齐

       1)成对实体对齐方法

       2)局部集体实体对齐方法

       3)全局集体实体对齐方法

              ①基于相似性传播的集体实体对齐方法

              ②基于概率模型的集体实体对齐方法

(2)知识加工

        1)本体构建

        2)质量评估

(3)知识更新

3.4 知识推理

(1)基于逻辑的推理

(2)基于图的推理

4 知识图谱的典型应用

(1)智能搜索

       1)查询式语义理解

       2)知识检索

(2)深度问答

(3)社交网络

(4)垂直行业应用

       1)金融行业

       2)医疗行业

       3)电商行业

5 知识图谱的挑战

(1)知识获取

(2)知识表示

       1)复杂关系汇中的知识表示

       2)多源信息融合中的知识表示

(3)知识融合

       1)并行与分布式算法

       2)众包算法

       3)跨语知识库对齐

(4)知识应用

6 结束语



学习笔记,仅供参考。

  • [1]徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(04):589-606.

摘要:

        建立的具有语义处理能力与开放互联能力的知识库,在智能搜索、智能问答、个性化推荐等智能信息服务中产生应用价值。本文描述了KG的定义、架构的基础上、综述知识图谱中的知识抽取、知识表示、知识融合、知识推理四大核心技术的研究进展和典型应用。

konwledge extraction; konwledge representation; konwledge fusion; konwledge reasoning.

        万维网的内容多源异质,组织结构松散,给大多数环境下的知识互联带来了极大的挑战。

        基于上面的原因,根据知识组织原则【2】,从新的视角去探索既符合网络信息资源发展变化又能适应用户认知需求的知识互联方法【3】。从更深层次上揭示人类认知的整体性与关联性【4】。

        知识图谱在2006年有文献【5】提出,其表述为语义网概念。推广、完善使用本体模型来形式化表述数据中的隐含语义,RDF(Resource description framework)模式(RDF schema)和万维网本体语言(Web ontology language, OWL)的形式化模型就是基于上述目的产生的。

       目前随时发展KG已经被广泛用在了智能搜索、智能问答、个性化推荐等领域。在搜索过程中,根据用户查询的情境和意图进行推理,实现概念检索。在搜索结果中,结果具有层次化、结构化等重要特征。

1 知识图谱的定义与架构

1.1 KG的定义  

定义:用于揭示实体之间关系的语义网络,可以对现实世界及其相互关系进行形式化地描述。

       三元组的表示形式:G=(E,R,S),其中: E=\left \{ e_{1}, e_{2}, ... , e_{|E|} \right \} 是实体,|E|包含不同实体;R=\left \{ r_{1}, r_{2}, ... , r_{|E|} \right \} ,是关系库的关系集合。其中包含|R|种不同关系。S\sqsubseteq E*R*E 代表知识库中的三元组集合。

       三元组的基本形式主要包括实体1、关系、实体2和概念、属性和属性值等。

       实体是KG中的最基本元素、不同的实体间存在不同的关系。可以用一个全局唯一确定的ID来标识。

       概念主要是指集合、类别、对象类型、事物的种类。

       属性主要指对象可能具有的属性、特征、特性、特点以及参数。每个属性、属性值对(attribute-value pair, AVP)可用来刻画试题的内在特性,而关系可以用来连接两个实体,刻画它们之间的关联。

       分为两类:通用知识图谱和行业知识图谱。

       通用KG

       注重广度,强调融合更多的实体,准确度相对不高,并且受概念范围的影响,很难借助本体对公理、规则以及约束条件的支持能力规范其实体、属性、实体间的关系等。主要用于智能搜索。

       行业KG

       需要依靠特定行业的数据来构建,具有特定的行业意义。实体的属性与数据模式比较丰富。

1.2 KG的架构

(1)逻辑结构

       可分为模式层与数据层。

       数据层主要是由一系列的事实组成、而知识将以事实为单位进行存储。例如:

       (实体1,关系,实体2)(实体,属性,属性值)。其开源的产品如:

       Neo4j[9],Twitter的FlockDB[10],sones的GraphDB[11]。

       模式层构建在数据层之上。通过本体库来规范数据层的一系列事实表达。

(2)KG的体系结构

       KG主要有自顶向下(top-down)与自底向上(bottom-up)两种构建方式。top-down:先为KG定义好本体和数据模式、再将实体加入到知识库。bottom-up:是指从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式[12]。目前大多数KG都是采用自底向上的方式进行构建,典型的代表:Google的Knowledge Vault[13]。

 2 大规模知识库

列举常见的知识库。

2.1 开放链接知识库

(1)Freebase知识库[15],前期人工构建,后期数据来源于维基百科、IMDB、Flicker等。

(2)Wikidata【16】是wikipedia, wikivoyage、wikisource中结构化数据的中央存储器,并支持免费试用【17】。Wikidata中的数据主要以文档的形式进行存储。目前已包含了超过1700万个文档。其中的每个文档都有一个主题或一个管理页面,且被唯一的数字标识。

(3)DBpedia[18],是多语言综合型知识库。在LOD项目中处于最核心的地位。

(4)YAGO【19】,是综合型知识库。整合了维基百科、WordNet【20】以及GeoNames等数据源。

2.2 垂直行业知识库

(1)IMDB【22】关于电影演员、电影、电视节目、电视明星以及电影制作的资料库。

(2)MusicBrainz【24】是一个结构化的音乐维基百科,收藏音乐元素数据。

(3)ConceptNet【26】是一个语义知识网络,主要由一系列的代表概念的结点构成,这些概念将主要采用自然语言单词或短语的表达形式,通过相互连接建立语义联系。      ConceptNet 5【27】是基于ConceptNet的一个开源项目,主要通过GPLv3协议进行开源。

3 KG的关键技术

3.1 知识抽取

        通过知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。

       (1)实体抽取

       早期的实体抽取也称为命名实体学习(named entity learning)或命名实体识别(named entity recognition )。指的是从原始语料中自动识别出命名实体。

       由于实体是知识图谱中的最基本元素,其抽取的完整性、准确率、召回率将直接影响到知识库的质量。

       文献【28】将实体抽取的方法分为3中:
       1)基于规则与词典的实体抽取方法

       早期的实体抽取是在限定文本领域、限定语义单元类型的条件下进行的,朱啊哟采用的是基于规则与词典的方法,例如使用已定义的规则,抽取文本中的人民、地名、组织机构名、特点时间等实体【30】。

       文献【31】实现了一套能够抽取公司名称的实体抽取系统,主要用到了启发式算法与规则模板相结合的方法。   基于规则模板的方法需要大量的专家来编写规则或模板,覆盖领域范围有限,而且很难适应数据变化的新需求。

       2)基于统计机器学习的实体抽取方法

       文献【32】利用KNN算法与条件随机机场模型,实现了对Twitter文本数据中实体的识别。(问题:性能受到训练集合的限制,算法的准确率与召回率都不高)

       基于上述,将监督学习和规则相互结合,取得了一定成果,例如文献【33】,基于字典,使用最大熵算法在Medline论文摘要的GENIA数据集上进行实体抽取实验,实验的准确率和召回率都在70%以上。

       3)面向开放域的实体抽取方法

       针对从少量实体实例中自动发现具有区分力的模式,进而扩展到海量文本去给实体做分类与聚类的问题。文献【34】提出了一种通过迭代方式扩展实体语料库的解决方案,其基本思想是通过少量的实体实例建立特征模型,再通过该模型应用于新的数据集得到新的命名实体。

       文献【35】提出了一种基于无监督学习的开放域聚类算法,其基本思想是基于已知实体的语义特征去搜索日志中识别出命名的实体,然后进行聚类。

       (2)关系抽取

       是解决实体间语义链接的问题。

       文献【36】提出了面向开放域的信息抽取框架(open information extraction, OIE),OIE方法在对实体的隐含关系抽取方面性能低下,因此部分研究组提出了基于马尔科夫逻辑网、基于本体推理的深层隐含关系抽取方法【37】。

       1)开放式实体关系抽取

       开放式实体关系抽取可分为:二元开放式关系抽取和N元开放式关系抽取。

       文献【39】提出了一种基于Wikipedia的OIE方法WOE,经自监督学习得到抽取器,准确率较TextRunner有明显的提高。

       针对WOE的缺点,文献【40】提出了第二代OIE ReVerb系统,以动词关系抽取为主。

       文献【41】提出第三代OIE系统OLLIE(open language learning for information extraction),尝试弥补并扩展OIE的模型及相应的系统,抽取结果的准确度得到了增强。

       基于语义角色标注的OIE分析显示:英文语句中40%的实体关系是N元的【42】,如处理不当,可能会影响整体抽取的完整性。

       文献【43】提出了一种可抽取任意英文语句中N元实体关系的方法KPAKEN,弥补了ReVerb的不足。不适用于大规模开放域的情况。

       2)基于联合推理的实体关系抽取

       文献【44】,联合推理的关系抽取中的典型方法是马尔科夫逻辑网MLN(Markov logic network),它是一种将马尔科夫与一阶逻辑相结合的统计关系学习框架,同时也是在OIE中融入推理的一种重要实体关系抽取模型。基于该模型文献【45】提出无监督学习模型StatSnowball。

       基于StatSnowball,文献【37,46】提出一种实体识别与关系抽取相结合的模型EntSum。

       文献【37,47】提出了一种简易的Markov逻辑TML(tractable Markov logic),TML 将领域知识分解为若干部分,各部分主要来源于事物类的层次化结构,并依据此结构,将各大部分进一步分解为若干子部分,以此类推。
       TML表示能力强,较为简洁地表示概念以及关系的本体结构。

       (3)属性抽取

       主要针对实体而言,通过属性可以形成对实体的完整勾画。

       由于实体的属性可以看成是实体与属性值之间的一种名称关系,因此可以将实体属性的抽取问题转换为关系抽取问题。

       文献【37,48】提出的基于规则与启发式算法的属性抽取方法能够从Wikipedia及WordNet的半结构化网页中自动抽取响应的属性名称和属性值。该算法的抽取率可达到95%。

       两种抽取方法,一种是基于百科抽取的数据作为训练集,然后再将该模型应用于开放域中的实体属性抽取【49】,一种是根据实体属性与属性值的关系模式,直接从开放域数据集上抽取属性【50】。

3.2 知识表示

       (1)应用场景

       分布式表示旨在用一个综合的向量来表示实体对象的语义信息,是一种模仿人脑工作的表示机制【53】。

       1)语义相似度计算。由于实体通过分布式表示而形成的是一个个低维的实值向量,所以,可使用熵权系数法【54】,余弦相似性【55】等方法计算语义相似性。

       2)链接预测。链接预测又被称为知识图谱的补全【53】。

       (2)代表模型

       1)距离模型

       文献【56】提出了知识库中实体以及关系的结构化表示方法(structured embedding, SE)其基本思想是:首先将实体用向量进行表示,然后通过关系矩阵将实体投影到与实体向量同一维度的向量空间中,最后通过计算投影向量之间的距离来判断实体间已存在的关系的置信度。由于距离模型中的关系矩阵是两个不同的矩阵,故实体间的协同性较差。

       2)单层神经网络模型

       文献【57】针对上述提到的矩阵模型中的缺陷,提出了采用单层神经网络的非线性模型(single layer model,SLM),模型为知识库中每个三元组(h,r,t)定义了以下形式的评价函数:

       3)双线性模型

       又叫隐变量模型(latent factor model , LFM)文献【58-59】首先提出,模型中三元组(h,r,t)定义的评价函数如下形式: 

        主要是通过基于实体间关系的双线性变换来刻画在关系下的语义相关性。模型简单、易于计算、能有效刻画实体间的协同性【53】。

       基于上面,文献【60】将双线性变换矩阵Mr变换为对角矩阵,提出了DISTMULT模型,不仅简化了计算的复杂度,并且实验效果得到了显著提升。

       4)神经张量模型

       文献【61】提出的。基本思想:在不同的维度下,将实体联系起来,表示实体间复杂的语义联系。模型中位三元组(h,r,t)定义的评价函数:

        神经张量模型在构建实体的向量表示时,是将该实体中的所有单词的向量取平均值,这样一方面可以重复使用单词向量构建实体,另一方面将有利于增强低维向量的稠密程度以及实体与关系的语义计算【53】。

       5)矩阵分解模型 

        矩阵分解可以得到低维的向量表示,典型代表文献【62】,提出的RESACL模型。

       6)翻译模型

       文献【63】受到平移不变现象的启发,提出了TransE模型,也就是将知识库中实体之间的关系看成是从实体间的某种平移,并用向量表示。关系l_{r}可以看做是从头实体向量l_{h}到尾实体向量l_{t}的翻译。

        该模型参数较少,计算的复杂度显著降低。TransE模型在大规模稀疏知识库上也同样具有较好的性能和可扩展性。

       (3)复杂关系模型 

       知识库中的实体关系类型也可以分为1-to-1, 1-to-N, N-to-1, N-to-N 4种类型【63】。而复杂关系是后三种。

       TransE模型不能用在处理复杂关系上【53】,所以一些扩展功能就被纷纷提出来了。

       1)TransH模型

       文献【64】提出的TransH模型尝试通过不同形式表示不同关系中的实体结构,对于同一个实体而言,它在不同的关系下也扮演着不同的角色。

        不同的实体的不同关系下的表示形式不同。实体向量被投影到了关系的语义空间中,故它们具有相同的维度。

       2)TransR模型

        由于实体、关系是不同的对象,不同的关系所关注的实体的属性也不尽相同,将它们映射到同一个语义空间,在一定程度上也就限制了模型的表达能力。

       文献【65】提出了TransR模型。模型首先将知识库中的每个三元组(h,r,t)的头实体与尾实体向关系空间中投影,希望满足l_{h_{r}} + l_{r} \approx l_{t_{r}},然后计算损失函数。

       文献【65】提出的CTransR模型,通过对关系r对应的头实体、尾实体向量的差值l_{h} - l_{r}进行聚类,将r划分为若干个子关系r_{c}

       3)TransD模型

       文献【66】提出了TransD模型,模型分别定义了头实体和尾实体在关系空间上的投影矩阵。

       4)TransG模型

       文献【67】提出的。认为一种关系可能会对应多种语义,而每一种语义都可以用一个高斯分布表示。TransG模型考虑到了关系r的不同语义,使用高斯混合模型来描述知识库中每个三元组(h,r,t)的头实体与尾实体之间的关系,具有较高的实体区分度。

       5)KG2E模型

       文献【68】提出的。同样使用高斯分布来刻画实体与关系。

       模型使用高斯分布的均值表示实体或关系在语义空间中的中心位置,协方差则表示实体或关系的不确定度。

        (4)多源信息融合

        三元组作为知识库的一种通用表示形式,通过表示学习,能够以较为直接的方式表示实体、关系及其之间的复杂语义关联。

       多源异质信息融合模型方面的研究尚处于起步阶段,涉及的信息来源也极为有限,具有较为广阔的研究前景(***待研究)。
       文献【69】提出的DKRL(description-embodied knowledge representation learning),模型将Freebase知识库中的实体描述文本数据作为其主要数据来源,通过CBOW模型【70】,将文本中多个词对应的词向量加起来表示文本。其中的另一个CNN模型【71】则利用模型中层间的联系和空域信息的紧密关系来做文本的处理与特征的提取,除此之外,CNN模型中还充分考虑到了文本中不同单词的次序问题。

       DKRL模型在新实体的表示能力方面较强,能根据新实体的简短描述产生对应的表示形式,这对知识融合和知识图谱补全等具有重要的意义。

       文献【64】选择维基百科知识库,并通过word2vec将知识库中的正文词表示为向量,同时使用TransE模型【63】对该知识库进行表示学习。

3.3 知识融合

       知识融合是高层次的知识组织【72】,使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤【73】,达到数据、信息、方法、经验以及人的思想的融合,形成高质量的知识库。

       (1)实体对齐

       实体对齐(entity alignment),也称为实体匹配(entity matching)或实体解析(entity resolution),主要是消除异构数据中实体的冲突。

       实体对齐主要面临3个方面的挑战【74】:

       1)计算复杂度;匹配算法的计算复杂度会随知识的规模呈二次增长。

       2)数据质量;知识质量良莠不齐、相似重复数据、孤立数据、数据时间粒度不一致等问题。

       3)先验训练数据;先验数据一般需要研究者手工构造先验训练数据。

       基于上述,知识库实体对齐的主要流程将包括【74】:

       1)将待对齐数据进行分区索引,以降低计算的复杂度;

       2)利用相似度函数或相似性算法查找匹配实例

       3)使用实体对齐算法进行实例融合

       4)将步骤2)和步骤3)的结果结合起来,形成最终的对齐结果。

       对齐算法可以分为成对实体对齐与集体实体对齐两大类。集体实体对齐算法又可分为局部集体实体对齐与全局集体实体对齐。

       1)成对实体对齐方法

              ①基于传统概率模型的实体对齐方法

              主要考虑两个实体各自属性的相似性,不考虑实体间的关系。

              文献【76】将基于属性相似度评分来判断实体是否匹配的问题转化为一个分类问题,建立了该问题的概率模型,缺点是没有体现重要属性对于实体相似度的影响。

              文献【77】基于概率实体链接模型,为属性对分配了不同的权重,匹配度有所提高。

              文献【78】结合贝叶斯网络对属性的相关性进行建模,并使用最大似然估计方法对模型中的参数进行估计。

              ②基于机器学习的实体对齐方法

              主要是将实体对齐问题转化为二分类问题。根据是否使用标注数据分为有监督和无监督学习两类。
              通过属性比价向量来判断实体对匹配与否可称为成对实体对齐。这类方法中的典型代表有决策树【79】,支持向量机【80】,集成学习【81】等。

              文献【82】使用分类回归树、线性分析判别等方法完成了实体辨析。

              文献【83】基于二阶段实体链接分析模型,提出了一种新的SVM分类方法,匹配准确率远高于TAILOR中的混合算法。

              文献【84】提出了一种扩展性较强的自适应实体名称匹配与聚类算法,可通过训练样本生成一个自适应的距离函数。

              文献【85】采用类似的方法,在条件随机场实体对齐模型中使用监督学习的方法训练产生距离函数,然后调整权重,使特征函数与学习参数的积最大。

              文献【86】构建的ALIAS系统可通过人机交互的方式完成实体链接与去重的任务。

              文献【87】采用相似的方法构建了Active Atlas系统。

       2)局部集体实体对齐方法

              方法思想:为实体本身的属性以及与它有关联的实体的属性分别设置不同的权重,并通过加权求和计算总体的相似度,还可使用向量空间模型以及余弦相似性来判别大规模知识库中的实体的相似程度【88】。

       3)全局集体实体对齐方法

              ①基于相似性传播的集体实体对齐方法

              文献【89-90】提出的集合关系聚类算法,该算法主要通过一种改进的层次凝聚算法迭代产生匹配对象。

              文献【91】在以上算法的基础上提出了适用于大规模知识库实体对齐的算法SiGMa。SiGMa方法【74】能够综合考虑实体对的属性与关系,通过集体实体的领域,不断迭代发现所有的匹配对。

              ②基于概率模型的集体实体对齐方法

              主要采用统计关系学习进行计算与推理,常用的方法有LDA模型【82】,CRF模型【93】,MarKov逻辑网【94】等。
              文献【92】将LDA模型应用于实体的解析过程中,通过其中的隐含变量获取实体之间的关系。但是在大数据集上性能一般。

              文献【85】提出一种基于图划分技术的CRF实体辨析模型,该模型以观察值为条件产生实体判别的决策,有利于处理属性间具有依赖关系的数据。

              文献【93】在CRF实体辨析模型的基础上提出了一种基于条件随机场模型的多关系的实体链接算法,引入了基于canopy的索引,提高了大规模知识库环境下的集体实体对齐效率。

              文献【94】提出了一种基于Markov逻辑网的实体解析方法。

       (2)知识加工

              知识加工主要包括本体构建与质量评估两方面的内容。

              1)本体构建

              本体构建可以人工编辑的方式进行手动构建,也可以通过数据驱动自动构建,然后再经质量评估方法与人工审核相结合的方式加以修正与确认【12】。

              目前,Probase所包含的概念总数已达到千万级别,准确率高达92.8%,是目前为止包含概念数量最多,同时也是概念可信程度最高的知识库【97】。

              数据驱动的本体自动构建主要有3个阶段【98】:

              ①纵向概念间的并列关系计算;计算并列关系的相似度,可以判断是否属于同一概念,计算方法主要有模式匹配与分布相似度两种【12,99】

              ②实体上下位关系抽取;方法包括基于语法的抽取与基本语义的抽取两种方式,例如目前主流的信息抽取系统KnowItAll【38】,TextRunner【37】,NELL【100】等。Probase则是采用基于语义的抽取模式【101】。

              ③本体生成。文献【102】基于主题层次聚类的方法构建了本体结构。与此同时,为了解决主题模型不适用于短文本的问题,提出了基于单词共现网络的主题聚类与上下位词抽取模型。

              2)质量评估

              对知识的可信度进行量化,保留置信度较高的。

              文献【103】,基于LDIE框架,提出了一种新的知识质量评估方法,用户可根据业务需求来定义质量评估函数,或者通过对多种评估方法的综合考评来确定知识的最终质量评分。

       (3)知识更新

       主要更新是模式层的更新与数据层的更新。

       模式层的更新是指本体中元素的更新,包括概念的增加,修改,删除,概念属性的更新以及概念之间上下位关系的更新等。课参考【106,107】

       数据层的更新指的是实体元素的更新,包括实体的增加,修改,删除,以及实体的基本信息和属性值。       

3.4 知识推理

       知识推理是在已有的知识库基础上进一步挖掘隐含的知识,丰富、扩展知识库。

       在推理的过程中要关联规则的支持。

       知识推理的对象可以是实体、实体的属性、实体间的关系、本体库中的概念层次结构等。

       知识推理的方法主要是基于逻辑的推理与基于图的推理两种类别。

       (1)基于逻辑的推理

              基于逻辑的推理方式主要包括一阶谓词逻辑(first order logic)、描述逻辑(description logic)以及规则等。一阶为此逻辑推理以命题(包含个体和谓词)为基本进行推理。个体指的是知识库中的实体对象,具有客观独立性,具体一个或者泛指一类。谓词描述个体的性质或者个体之间的关系。

              文献【108】针对已有一阶谓词逻辑推理方法中存在的推理效率低下等问题,提出了一种基于谓词变迁系统的图形推理法,定义了描述谓词间与/或关系的谓词,通过谓词图表示变迁系统,实现了反向的推理目标。

              描述逻辑:是在命题逻辑与一阶谓词逻辑上发展而来,目的是表示能力与推理复杂度之间追求一种平衡。

              基于描述逻辑的知识库包括:Tbox(terminology box)与ABox(assertion box)【109】。

              文献【111】提出了基于RDF和PD*语义的正向推理算法,该算法以RDF蕴涵规则为前提,结合了sesame算法以及PD*的语义,是一个典型的迭代算法。

              文献【112】提出了ORBO算法,从结点出发考虑,判断推理规则中第一条推理关系的前提是否满足,节约了时间,降低了算法时间复杂度。

       (2)基于图的推理

              文献【113】提出的path constraint random walk, path ranking等算法较为典型,主要是利用关系路径中的蕴涵信息,通过图中两个实体间的多步路径来预测它们之间的语义关系。

              除了上述两种制式推理的方法,文献【75】提出了基于组合描述逻辑的Tableau算法,该方法主要利用概念间的相似性对不同知识库中的概念进行关联、合并,通过已有的知识完成跨知识库的推理。

4 知识图谱的典型应用

       KG为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。

(1)智能搜索

       基于KG的智能搜索是一种基于长尾的搜索,搜索引擎以知识卡片的形式将搜索结果展现出来。用户的查询请求将经过查询式语义理解与知识检索两个阶段:

       1)查询式语义理解

              ①对查询请求文本进行分词、词性标注以及纠错;

              ②描述归一化,使其与知识库中的相关知识进行匹配【114】;

              ③语境分析;

              ④查询扩展。

       2)知识检索

       经过查询式分析后的标准查询语句进行知识库检索引擎,引擎会在知识库中检索相应的实体以及与其在类别、关系、相关性等方面匹配度较高的实体【115】。

       智能搜索引擎主要以3种形式展现知识:

       1)集成的语义数据;

       2)直接给出用户查询问题的答案;

       3)根据用户的查询给出推荐列表【7】。

       国外的搜索引擎以谷歌的Google Search【6】,微软的Bing Search【116】最为典型。谷歌的知识图谱相继融入了维基百科、CIA世界概览等公共资源以及从其他网站搜集、整理的大量语义数据【117】,微软的Bing Search【116】和Facebook【117】、Twitter【118】等大型社交服务站点达成了合作协议,在用户个性化内容的搜集、定制化方面具有显著的优势。

       国内的主流搜索引擎公司,如百度,搜狗等。搜狗的知立方【119】,百度的知心【120】。

(2)深度问答

       有很多问答平台都引入了知识图谱,例如:华盛顿大学的Paralex系统【121】和苹果的智能语音助手Siri【122】,亚马逊收购的自然语言助手Evi【123】,它授权了Nuance的语音识别技术,采用True Knowledge引擎进行开发,也可提供类似Siri的服务。百度的小度机器人【124】,天津聚问网络技术服务中心开发的大型在线问答系统OASK【125】,专门为门户、企业、媒体、教育等各类网站提供良好的交互式问答解决方案。

(3)社交网络

       Facebook在2013年推出了Graph Search【126】产品,核心技术就是通过知识图谱将人、地点、事情等联系在一起,并以直观的方式支持精确的自然语言查询。

(4)垂直行业应用

       1)金融行业

              反欺诈环节,难点在于将不同税务子系统中的数据整合在一起。可参考文献【127】

       2)医疗行业

              耶鲁大学用于全球最大的神经科学数据库Senselab【128】。研究人员将不同层次的,与脑研究相关的数据进行检索、比较、分析、整合、建模、仿真,绘制出了描述脑结构的神经网络图谱,从而解决了当前神经科学所面临的海量数据问题。

       3)电商行业

              可以将文字描述,图片展示,相关信息罗列等可视化的知识展示,为消费者提供最满意的服务与体验。

5 知识图谱的挑战

(1)知识获取

       跨语言的知识抽取方法也成为了当前的研究热点。

       以马尔科夫逻辑网、本体推理的联合推理方法将成为学术界的研究热点。

       联合推理方法。等。

(2)知识表示

       知识表示在复杂关系、多源信息融合中遇到的挑战以及未来的研究方向:

       1)复杂关系汇中的知识表示

       2)多源信息融合中的知识表示

              文献【132】将注意力转向面向关系表示的多源信息融合领域,并已在CNN上进行了一定的实现。

              在知识融合表示中,融合是最关键的前期步骤,如能有机的融合多源异质的实体、关系等信息,将有利于进一步提升知识表示模型的区分能力以及性能。基于实体的、关系的、Web文本的,多知识库的融合均具有较为广阔的研究前景。

(3)知识融合

       知识融合对于KG的构建、表示均具有重要的意义。实体对齐是知识融合中的关键步骤,虽然相关研究已取得了丰硕的成果,但仍有广阔的发展空间。实体对齐在大规模知识库环境下所遇到的挑战以及未来的研究方向如下:

       1)并行与分布式算法

              海量知识,结构,数据特征变的复杂,对知识库实体对齐算法的准确率、执行效率提出了一定的挑战

       2)众包算法

              人机结合的众包算法可以有效地提高知识融合的质量【74】。

              众包算法的设计讲求数据量、知识库对齐质量以及人工标注三者的权衡。三者的权衡具有较广阔的研究前景【74】。

       3)跨语知识库对齐

              文献【133】在这方面取得了一定的进展,但知识库对齐的质量不高,仍需要研究。

              知识加工是形成高质量知识的重要途径,其中本体自然构建、本体抽取、本体聚类等问题是目前的研究热点。

              在知识质量评估方面,构建完善的质量评估技术标准或指标体系是该领域未来的研究目标。

              自动化更新的有效知识,也是一个重大挑战。

(4)知识应用

       目前的应用场景如上所述的几种,在探索应用场景时要考虑KG的以下优势

       1)对海量、异构、动态的半结构化、非结构化数据的有效组织与表达能力;

       2)依托于强大知识库的深度知识推理能力;

       3)与深度学习、类脑科学等领域相结合、逐步扩展的认知能力。

6 结束语

       知识图谱的定义、架构、大规模知识库等基础的理解。较为深入地了解了知识图谱中知识抽取、知识表示、知识融合以及知识推理4大核心技术,并就当前产业界的需求了解了它在智能搜索、深度问答、社交网络以及一些垂直行业中的实际应用。了解到了目前知识图谱面临的主要挑战,并对其未来的研究方向进行了展望。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值