摘要
摘要中指出文章的写作目的:在回顾文本信息抽取研究历史基础上,重点介绍开放式实体抽取、实体消岐和关系抽取的任务、难点、方法、评测、技术水平,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。
但从全文中来看,作者在问答系统应用上,没有详细的讨论。
1 引言
在引言中作者指出, MUC评测会议的五大评测任务:命名实体识别、同指关系消解、模板元素填充、模板关系确定和场景模板填充。
ACE会议进行九届,涉及的内容:实体检测与跟踪、数值检测与识别、时间识别和规范化、关系检测与描述、事件检测与描述、实体翻译。
TAC-KBP三届:实体链接、实体属性值抽取,数据来源是新闻和网络数据。
开放式信息抽取技术的三个优点:1.文本域开放;2.语义单元类型开放;3.以“抽取”替代“识别”。
2 开放式实体抽取
开放式实体抽取的任务是给出特定语义类的若干实体的情况下,找出该语义类包含的其他实体。传统方法更侧重与识别,后者更侧重于抽取。
开放式实体抽取的难点:1.初始信息少;2.语义类别难以确定;3.缺乏公认的测评。
现有方法抽取过程:1.候选实体获取;2.候选实体置信度计算和排序。
实体抽取存在的问题:对于一些小的语义类别,由于数据的稀疏性,语义的歧义性,使得抽取结果中噪声严重,影响应用效果。最突出的问题是:1.算法的可拓展性问题;2.模板的获取问题:如何挖掘和抽取有效的模板是今后研究的重点。可研究点
;3.目标数据源的置信度问题:如何过滤掉低质量的数据源。可研究点
;4.开放式中文实体抽取:这一结果还远远不能达到实用程度。可研究点
3 实体消岐
现有方法:实体聚类消岐和实体链接消岐。主要解决单语言实体消岐问题。
其中实体聚类消岐可详细分为几种方式,在刘峤《知识图谱构建技术综述》中有详细介绍。
实体聚类消岐核心是如何计算实体指称项之间的相似度。
实体链接消岐两个步骤:1.候选实体的发现;2.候选实体的链接。
目前主流的命名实体消岐评测平台:1.WePS,基于聚类。2.TAC KBP,基于实体链接。2010年TAC KBP评测结果中,各个系统的平均水平在70%,无法满足真实的应用需求。可研究点
实体消岐可研究点:
1.未解决问题:空实体问题,思路是用一个伪实体语言模型来建模这个问题。2.知识库使用的问题:有必要在语言模型框架下提出新的可以有效使用这些知识的方法。
4 开放式实体关系抽取
目标:突破封闭的关系类型限定以及训练语料的约束,从海量的网络文本中抽取实体关系三元组。
开放式关系抽取的难点:面对开放的网络资源,如何利用结构化网络知识与非结构化网络知识的冗余性,自动构建训练语料,同时建立自适应的关系抽取算法。可研究点