读《开放式文本信息抽取》赵军

最新推荐文章于 2023-05-09 19:40:25 发布

吃不胖的奇女子

最新推荐文章于 2023-05-09 19:40:25 发布

阅读量845

点赞数 2

分类专栏：论文阅读文章标签：信息抽取开放式文本实体消岐

本文链接：https://blog.csdn.net/Weiruimolv/article/details/88951060

版权

论文阅读专栏收录该内容

2 篇文章 0 订阅

订阅专栏

摘要

摘要中指出文章的写作目的：在回顾文本信息抽取研究历史基础上，重点介绍开放式实体抽取、实体消岐和关系抽取的任务、难点、方法、评测、技术水平，对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。
但从全文中来看，作者在问答系统应用上，没有详细的讨论。

1 引言

在引言中作者指出， MUC评测会议的五大评测任务：命名实体识别、同指关系消解、模板元素填充、模板关系确定和场景模板填充。
ACE会议进行九届，涉及的内容：实体检测与跟踪、数值检测与识别、时间识别和规范化、关系检测与描述、事件检测与描述、实体翻译。
TAC-KBP三届：实体链接、实体属性值抽取，数据来源是新闻和网络数据。
开放式信息抽取技术的三个优点：1.文本域开放；2.语义单元类型开放；3.以“抽取”替代“识别”。

2 开放式实体抽取

开放式实体抽取的任务是给出特定语义类的若干实体的情况下，找出该语义类包含的其他实体。传统方法更侧重与识别，后者更侧重于抽取。
开放式实体抽取的难点：1.初始信息少；2.语义类别难以确定；3.缺乏公认的测评。
现有方法抽取过程：1.候选实体获取；2.候选实体置信度计算和排序。
实体抽取存在的问题：对于一些小的语义类别，由于数据的稀疏性，语义的歧义性，使得抽取结果中噪声严重，影响应用效果。最突出的问题是：1.算法的可拓展性问题；2.模板的获取问题：如何挖掘和抽取有效的模板是今后研究的重点。可研究点；3.目标数据源的置信度问题：如何过滤掉低质量的数据源。可研究点；4.开放式中文实体抽取：这一结果还远远不能达到实用程度。可研究点

3 实体消岐

现有方法：实体聚类消岐和实体链接消岐。主要解决单语言实体消岐问题。
其中实体聚类消岐可详细分为几种方式，在刘峤《知识图谱构建技术综述》中有详细介绍。
实体聚类消岐核心是如何计算实体指称项之间的相似度。
实体链接消岐两个步骤：1.候选实体的发现；2.候选实体的链接。
目前主流的命名实体消岐评测平台：1.WePS，基于聚类。2.TAC KBP，基于实体链接。2010年TAC KBP评测结果中，各个系统的平均水平在70%，无法满足真实的应用需求。可研究点
实体消岐可研究点：1.未解决问题：空实体问题，思路是用一个伪实体语言模型来建模这个问题。2.知识库使用的问题：有必要在语言模型框架下提出新的可以有效使用这些知识的方法。

4 开放式实体关系抽取

目标：突破封闭的关系类型限定以及训练语料的约束，从海量的网络文本中抽取实体关系三元组。
开放式关系抽取的难点：面对开放的网络资源，如何利用结构化网络知识与非结构化网络知识的冗余性，自动构建训练语料，同时建立自适应的关系抽取算法。可研究点

吃不胖的奇女子

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
4
评论
读《开放式文本信息抽取》赵军

【摘要】摘要中指出文章的写作目的：在回顾文本信息抽取研究历史基础上，重点介绍开放式实体抽取、实体消岐和关系抽取的任务、难点、方法、评测、技术水平，对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。但从全文中来看，作者在问答系统应用上，没有详细的讨论。【1 引言】在引言中作者指出，MUC评测会议的五大评测任务：命名实体识别、同指关系消解、模板元素填充、模板关系确定和场...
复制链接

扫一扫