知识图谱发展报告2018(2)——知识图谱系列


知识图谱发展报告(2018)(3~4章)


实体识别与链接

实体识别与链接定义

命名实体识别是指识别文本中的命名性实体,并将其划分到指定类别的任务。常用实体类别包括人名、地名、机构名、日期等。实体链接主要解决实体名的歧义性和多样性问题,是指将文本中实体名指向其所代表的真实世界实体的任务,也通常被称为实体消歧。实体链接流程如下:

  1. 识别文档中的目标提及(实体)
  2. 针对每一个提及,识别该提及在知识图谱中可能指向的候选目标实体
  3. 基于提及的上下文等信息对目标实体进行排序
  4. 针对空提及(知识图谱中未出现的实体)进行监测与聚类

实体链接面临的挑战

  • 实体名具有歧义性和多样性
  • 标注好的训练语料较难获得
  • 实体具有开放性的特点:实体具有复杂性和开放性的特点。实体的复杂性指的是实体的类型多种多样,同时类型之间具有复杂的层次结构。实体的开放性指实体并不是一个封闭的集合,而是随着时间增加、演化和失效

实体识别与链接的技术和方法

根据模型的不同,实体分析方法可以分为基于统计模型的方法、基于深度学习的方法和基于文本挖掘的方法
根据对监督知识的依赖,可以划分为无监督方法、弱监督方法、知识监督方法和有监督方法

传统统计模型方法
  • 实体识别:最大熵分类模型、SVM、隐马尔可夫模型、条件随机场模型。基于统计模型的方法通常将实体识别任务形式化为从文本输入到特定目标结构的预测,使用统计模型来建模输入与输出之间的关联,并使用机器学习方法来学习模型的参数。
  • 实体链接:实体链接的核心是计算实体提及(mention)和知识库中实体的相 似度,并基于上述相似度选择特定实体提及的目标实体。传统统计模型的主要缺点在于需要大量的标注语料来学习,这导致构建开放域或Web环境下的信息抽取系统时往往会遇到标注语料瓶颈
深度学习方法
  • 实体识别:目前存在两类用于命名实体识别的典型深度学习架构,一种是NN-CRF架构,在该架构中,CNN/LSTM被用来学习每一个词位置处的向量表示,基于该向量表示,NN-CRF解码该位置处的最佳标签。第二种是采用滑动窗口分类的思想,使用神经网络学习句子中的每一个n-gram的表示,然后预测该n-gram是否是一个目标实体。
  • 实体链接:通过将不同类型的信息映射到相同的特征空间,并提供高效的端到端训练算法,深度学习方法给上述任务提供了强有力的工具
文本挖掘方法

文本挖掘方法只从容易获取且具有明确结构的语料中抽取知识,因此抽取出来的知识质量往往较高

实体识别与链接技术展望

  1. 融合先验知识的深度学习模型
  2. 资源缺乏环境下的实体分析
  3. 面向开放域的可拓展实体分析:
    1)数据规模上的可扩展性:信息抽取系统需要能够高效的处理海量规模的待抽取数据;
    2)数据源类型上的可扩展性:信息抽取系统需要能够在面对不同类型数据源时取得鲁棒的性能;
    3)领域的可扩展性:信息抽取系统需要能够方便的从一个领域迁移到另一个领域;
    4)上下文的可扩展性:实体分析系统需要能够处理不同的上下文,并针对不同上下文的特定自适应的改进自身。

实体关系学习

实体关系学习定义

关系定义为两个或多个实体之间的某种联系,实体关系学习就是自动从文本中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。目前关系抽取的核心研究内容可以划分为限定域关系抽取和开放域关系抽取

  • 限定域关系抽取
    利用有监督或弱监督的方法抽取预定义的实体关系知识在。监督的方法中主要的研究内容集中在如何挖掘更多能表征相应语义关系的特征上。弱监督的方法中主要的研究内容集中在如何降低自动生成语料中的噪声。
  • 开放与关系抽取
    利用无监督的方法自动的抽取关系三元组

关系抽取的挑战

  • 自然语言表达的多样性
  • 关系表达的隐含性
  • 实体关系的复杂性:时序关系

关系抽取技术

开放域关系抽取

开放域抽取方法:TextRunner、 WOE、 OpenIE

限定域关系抽取
基于规则的关系抽取

首先由通晓语言学知识的专家根据抽取任务的要求设计出一些包含词汇、句法和语义特征的手工规则(或称为模式),然后在文本分析的过程中寻找与这些模式相匹配的实例,从而推导出实体之间的语义关系

基于机器学习的关系抽取
  • 无监督关系学习
    无监督关系抽取方法可以发现新的关系,但其发现的新的关系往往是相似模板的聚类,其缺点是得到的关系不具语义信息,难以规则化,很难被用来构建知识库,如果需要得到语义关系,需要通过将其同现有知识库的关系进行对齐,或者通过人工的方式来给每个聚类关系簇赋予语义信息。
  • 有监督关系抽取
    1)基于特征向量: 显式地将关系实例转换成分类器可以接受的特征向量,其研究重点在于怎样提取具有区分性的特征,通过获取各种有效的词汇、句法和语义等特征,然后有效地集成起来,从而产生描述关系实例的各种局部和全局特征
    2)基于核函数的方法: 基于核函数的方法直接以结构树为处理对象,在计算关系之间的距离的时候不再使用特征向量的内积而是用核函数
    3)基于神经网络方法
  • 弱监督关系抽取
    一种是使用半监督学习和主动学习等技术以尽可能少的代价提升抽取效果,另外一种框架是使用回标的思想,利用现有知识库中的关系三元组,自动回标三元组中实体所在的文本作为训练数据。弱监督关系抽取虽然可以自动生成大规模训练语料,但是自动生成训练语料的过程中需要大规模的已有知识图谱作为种子,而且生成的语料中会有噪音数据

关系抽取技术展望

目前,绝大部分的关系抽取研究集中在二元关系抽取上,即抽取目标为三元组(实体 1,关系,实体 2),然而二元关系很难表达实体关系的时间特性和空间特性,而且很多关系是多元的,例如:NBA 球星勒布朗詹姆斯效力过的球队。这就是一个多元关系,首先他效力过的球队有多支,其次效力于每支球队的时间也不同,这就是关系的时空性和多元性。具有时空特性的多元关系能建模和表达更丰富的关系知识,是未来研究的一个方向


知识图谱发展报告2018(1)—— 知识图谱系列

待更
[知识图谱发展报告2018(3)——知识图谱系列]()
[知识图谱发展报告2018(4)——知识图谱系列]()
[知识图谱发展报告2018(5)——知识图谱系列]()
[知识图谱发展报告2018(6)——知识图谱系列]()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值