信息抽取概述

最新推荐文章于 2022-12-20 07:46:07 发布

sunghosts

最新推荐文章于 2022-12-20 07:46:07 发布

阅读量947

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/sunghosts/article/details/118679803

版权

NLP 专栏收录该内容

37 篇文章 3 订阅

订阅专栏

本文探讨了信息抽取技术，包括实体抽取、关系抽取、实体消歧和链接，以及其与自动文摘的区别。重点介绍了MUC等评测会议对技术发展的影响，以及评价标准如精度、召回率和F1。此外，文章还涉及了深度学习在处理实体歧义和实体链接中的应用。

摘要由CSDN通过智能技术生成

文本信息抽取指的是这样一类文本处理技术，它从自然语言文本中自动抽取指定类型的实体（entity）、关系（relation）、事件（event）等事实信息，并形成结构化数据输出［Grishman, 1997］。

与自动文摘相比，信息抽取一般是有目的地从文本中寻找所要的信息，并将找到的信息转化成结构化格式表示，一般采用类似框架的表示形式。因此，系统不需要生成自然语言的句子。 框架表示中包含哪些属性，需要系统填充哪些槽，都是事先设定好的。而在自动文摘系统中，文摘的内容通常是不确定性的，完全依赖于输入文档的内容，而且输出结果一般是由自然语言描述的，因此，必须考虑语言生成的各个方面，诸如语言生成的连贯性、合乎语法性和可读性等问题。但是， 信息抽取与自动文摘有着非常密切的联系，尤其在传统的信息抽取任务中文档分析阶段， 包括对主题的识别、重要句子或关键信息的识别与抽取等很多方面，几乎是一样的。

信息抽取技术开始走向了迅速发展的时期，尤其一系列国际性评测会议的组织，如， MUC， TREC，ACE（automatic content extraction）〔 4〕， MET（multilingual entitytask）， SUMAC（summarization analysis conference）等，极大地推动了这一技术的发展，尤其MUC的组织和召开对于信息抽取技术的发展起了决定性的促进作用。

评价标准：精度、召回率和F1；漏报（标准答案中有，但系统输出中没有）和误报（标准答案中没有，而系统输出中有）。

三大类（实体类、时间类和数字类）、七小类（人名、机构名、地名、时间、日期、货币和百分比）

实体消歧

即一词多义的问题，比如苹果即可能指一种水果，也可能指苹果公司。

深度学习之前，可以利用实体上下文构建特征向量，然后计算相似度；现在实体都用embedding表示，Word2vec、glove无法处理歧义问题，但是bert模型出来后，实体的embedding能够根据上下文给出不同的结果。

实体链接

将从非结构化的文本中识别的实体跟知识库（如知识图谱）中的实体概念关联。

实体关系

先定义schema，然后再抽取关系，其实就是槽填充。

sunghosts

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
信息抽取概述

文本信息抽取指的是这样一类文本处理技术，它从自然语言文本中自动抽取指定类型的实体（entity）、关系（relation）、事件（event）等事实信息，并形成结构化数据输出［Grishman, 1997］。与自动文摘相比，信息抽取一般是有目的地从文本中寻找所要的信息，并将找到的信息转化成结构化格式表示，一般采用类似框架的表示形式。因此，系统不需要生成自然语言的句子。框架表示中包含哪些属性，需要系统填充哪些槽，都是事先设定好的。而在自动文摘系统中，文摘的内容通常是不确定性
复制链接

扫一扫

专栏目录