读《开放式文本信息抽取》赵军

摘要

摘要中指出文章的写作目的:在回顾文本信息抽取研究历史基础上,重点介绍开放式实体抽取、实体消岐和关系抽取的任务、难点、方法、评测、技术水平,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。
但从全文中来看,作者在问答系统应用上,没有详细的讨论。

1 引言

在引言中作者指出, MUC评测会议的五大评测任务:命名实体识别、同指关系消解、模板元素填充、模板关系确定和场景模板填充。
ACE会议进行九届,涉及的内容:实体检测与跟踪、数值检测与识别、时间识别和规范化、关系检测与描述、事件检测与描述、实体翻译。
TAC-KBP三届:实体链接、实体属性值抽取,数据来源是新闻和网络数据。
开放式信息抽取技术的三个优点:1.文本域开放;2.语义单元类型开放;3.以“抽取”替代“识别”。

2 开放式实体抽取

开放式实体抽取的任务是给出特定语义类的若干实体的情况下,找出该语义类包含的其他实体。传统方法更侧重与识别,后者更侧重于抽取。
开放式实体抽取的难点:1.初始信息少;2.语义类别难以确定;3.缺乏公认的测评。
现有方法抽取过程:1.候选实体获取;2.候选实体置信度计算和排序。
实体抽取存在的问题:对于一些小的语义类别,由于数据的稀疏性,语义的歧义性,使得抽取结果中噪声严重,影响应用效果。最突出的问题是:1.算法的可拓展性问题;2.模板的获取问题:如何挖掘和抽取有效的模板是今后研究的重点。可研究点;3.目标数据源的置信度问题:如何过滤掉低质量的数据源。可研究点;4.开放式中文实体抽取:这一结果还远远不能达到实用程度。可研究点

3 实体消岐

现有方法:实体聚类消岐和实体链接消岐。主要解决单语言实体消岐问题。
其中实体聚类消岐可详细分为几种方式,在刘峤《知识图谱构建技术综述》中有详细介绍。
实体聚类消岐核心是如何计算实体指称项之间的相似度。
实体链接消岐两个步骤:1.候选实体的发现;2.候选实体的链接。
目前主流的命名实体消岐评测平台:1.WePS,基于聚类。2.TAC KBP,基于实体链接。2010年TAC KBP评测结果中,各个系统的平均水平在70%,无法满足真实的应用需求。可研究点
实体消岐可研究点:1.未解决问题:空实体问题,思路是用一个伪实体语言模型来建模这个问题。2.知识库使用的问题:有必要在语言模型框架下提出新的可以有效使用这些知识的方法。

4 开放式实体关系抽取

目标:突破封闭的关系类型限定以及训练语料的约束,从海量的网络文本中抽取实体关系三元组。
开放式关系抽取的难点:面对开放的网络资源,如何利用结构化网络知识与非结构化网络知识的冗余性,自动构建训练语料,同时建立自适应的关系抽取算法。可研究点

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值