开放域中文知识图谱自动构建技术

在这里插入图片描述

公众号 系统之神与我同在

知识图谱构建核心问题有如下三条:

1.命名实体识别(小样本、跨语言、开放域)
2.关系的自动识别(上下位关系、开放域横向关系)
3.实体缺失属性的自动补全
在这里插入图片描述
在这里插入图片描述
1.命名实体识别(小样本、跨语言、开放域) :
在这里插入图片描述
传统的命名实体识别主要是识别人名、地名、机构名等,逐渐提高命名实体识别的粒度,在经过多年的发展之后, 由于深度学习模型的应用,明明体识别已经可以自动生成实体类型标签。明明体识别经历了由最初的“词典+启发式规则”到“半监督+Bootstrapping”到“监督学习+统计模型”再到深度学习模型的发展阶段。

在这里插入图片描述
命名实体识别的常用方法:LSTM+CNN+CRF

在这里插入图片描述
在这里插入图片描述
跨语言命名实体识别:

由于不同语言之间包含互补的实体线索,因此可以借助英文丰富资源帮助中文实体识别。例如:

在这里插入图片描述

中文“本”很少作为实体,但是其英文翻译“Ben”经常作为实体。

我们可以利用双语词典作为桥梁丰富源语言语义表示,构建一个词典映射函数来学习未登录词的跨语言语义表示。
在这里插入图片描述
引入跨语言命名实体识别可以显著提高模型效果。

阅读理解命名实体识别:

在命名实体识别中常常会出现多个命名实体嵌套的情况:
在这里插入图片描述
在这里插入图片描述
开放域命名实体识别:

开放域命名实体的类别更多,且不限定,例如:

药品名:阿司匹林、双黄连口服液;
会议名:20国集团伦敦峰会、中央经济工作会议;
电影名:《泰囧》、《苹果》;

其类别更细,且有层次:

球队名:达拉斯小牛队、国际米兰;
企业名:微软、中石油;
高校名:哈尔滨工业大学、麻省理工学院;

这些都属于机构名。

基于多信息源的上位词抽取:

模型获取认知实体的信息类似于人类的认知过程:
在这里插入图片描述
在这里插入图片描述

通过搜索,在线百科等多个来源获取命名实体类型和上位词,无需添加任何标注。

2.关系的自动识别(上下位关系、开放域横向关系):

关系挖掘分为上下位关系挖掘和横向关系挖掘。

上下位关系挖掘:

在这里插入图片描述
横向关系挖掘:

在这里插入图片描述
基于知识库弱监督的关系抽取:
在这里插入图片描述
优点:

自动标注语料,数据量增多
不受领域限制,关系丰富
发现新的关系实例

缺点:知识库回标过程引入大量噪声。因此需要抗噪模型。

基于深层记忆网络的弱监督关系抽取算法:
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
实体关系异步抽取:

4类主要的实体关系联合抽取方法皆采用异步联合抽取。
在这里插入图片描述在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在关系抽取过程中,会出现如下的问题:

·遍历了全部实体对建模关系(N*N遍历),造成中间冗余信息。
·关系建模反馈实体建模(“出生地”->人物),实体模型和关系模型间交互有限。
·实体模型或关系模型的错误会向下传递,因此预测时错误会累计。

由于关系扮演重要的角色,不应只作为输出层的预测类别标签,所以我们:1.采用阅读理解框架,将关系作为输入查询实体(头尾实体);2.为关系构造自然语言描述,用以语义建模。

由于重叠元组的关系类别通常是不同的,例如:(美国,总统,奥巴马),(奥巴马,出生于,檀香山市),因此采取:1.关系可以解码大多数重叠元组,以关系为驱动而非实体为驱动可以应对重叠元组问题;2.逐次输入关系描述,模型每次仅关注一种关系类别的实体关系元组抽取。

同步联合抽取模型技术层面涉及两个方面:关系问询策略和同步联合建模。

同步联合建模分为四个子任务:关系类别判定、NER识别、元组头实体识别、元组尾实体识别。

在这里插入图片描述
3.实体缺失属性的自动补全:
属性是刻画一个实体的重要知识,是知识图谱中重要的核心知识。在自动构建知识图谱时,实体类别与其属性类型无预先定义,需要自动获取。

在这里插入图片描述
例子:借助百度百科补全知识库属性在这里插入图片描述
基于路径表示的属性补全:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
条件性知识图谱构建:在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
条件性知识图谱:

·考虑条件知识
·事实与条件联系建立
·考虑实体属性
·层次化结构灵活

条件性知识图谱构建的任务:从文本中提取事实和/或条件元组。

方法:动态的多输入多输出模型。
在这里插入图片描述

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
基于多种数据源的中文知识图谱构建方法研究 自从语义网的概念提出以来,越来越多的开放链接数据和用户生成内容被发布于互联网中,互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网。在此背景下,知识图谱首先由Google提出,其目标在于描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。知识图谱在实体层面对本体进行了丰富和扩充;本体中突出和强调的是概念以及概念之间的关联关系,描述了知识图谱的数据模式;而知识图谱则是在本体的基础上,增加了更加丰富的关于实体的信息。知识图谱在语义搜索、智能问答、知识工程、数据挖掘和数字图书馆等领有着广泛的应用。本文在现有知识图谱及其本体构建研究的基础上,研究从多种数据源中构建中文知识图谱,在以下方面展开了研究工作:1.充分利用互联网中的各类结构化或半结构化的信息,包括各种开放链接数据、在线百科、行业网站等,这些数据在覆盖范围方面有较大的优势,更新速度也比较快。本文描述了从这些结构化或半结构化的数据源中抽取和学习知识的方法,利用这些数据在广度上的优势保证所构建知识图谱的质量。2.研究如何综合使用多种数据源构建中文知识图谱,结合各种数据源的优势,包括关系数据库中数据的准确性,互联网中的开放链接数据和领公开知识库的广度优势,行业数据的深度优势等。提出一种基于多种数据源的知识图谱构建方法,该方法综合利用不同数据源的优势,相互辅助进行知识学习;同时利用多种数据源之间的冗余数据对知识图谱的准确性进行有效地保证。3.研究如何从大规模的互联网文本中抽取知识图谱形式的知识,提出一种基于自监督机器学习的开放中文关系抽取方法,用于抽取实体(概念)之间的同义关系、上下位关系和属性关系。该方法的主要优势在于能够使用从结构化数据或半结构化数据中得到的知识以及一些通用的启发式规则,自动标注语料。对于网页中文本内容的抽取,提出了一种基于启发式规则的网页正文内容抽取算法,自动识别网页中的正文内容。4.对于行业知识图谱构建,研究如何利用行业内部的结构化数据,设计了一种易于使用的从关系型数据到知识图谱语义数据的映射语言。同时研究如何自动地从互联网中发现行业数据,包括开放的知识库和行业网站等,提出了一种从少数行业种子关键词开始自动发现互联网中行业数据源的算法。5.研究如何提供在线协作编辑平台以有效地利用公众共享知识的积极性,以“众包”的方式编辑和完善知识图谱构建了一个知识图谱在线编辑平台,通过对学习算法进行配置以启动自动学习过程,然后在自动学习的结果上进行知识图谱的编辑。该平台主要优势有:能够支持大规模的用户并发编辑;能够与后台的自动知识学习引擎结合。最后,使用提出的知识图谱构建算法成功构建了一个具备7,392,384实体和60,842,064事实的中文通用知识图谱;与现有的知识库和数据集进行对比表明本知识图谱具备良好的覆盖度;同时,评估结果表明该知识图谱的平均准确率在95%以上。同时,本文还构建了一个鱼类知识图谱,由于构建时利用了多个现存的最完整的数据源,因此其覆盖度非常高,包含了已知的32000余种鱼类相关知识。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值