信息抽取概述

本文探讨了信息抽取技术,包括实体抽取、关系抽取、实体消歧和链接,以及其与自动文摘的区别。重点介绍了MUC等评测会议对技术发展的影响,以及评价标准如精度、召回率和F1。此外,文章还涉及了深度学习在处理实体歧义和实体链接中的应用。
摘要由CSDN通过智能技术生成

文本信息抽取指的是这样一类文本处理技术, 它从自然语言文本中自动抽取指定类型的实体(entity) 、 关系(relation) 、 事件(event)等事实信息, 并形成结构化数据输出[Grishman, 1997] 。

与自动文摘相比, 信息抽取一般是有目的地从文本中寻找所要的信息, 并将找到的信息转化成结构化格式表示, 一般采用类似框架的表示形式。 因此, 系统不需要生成自然语言的句子。 框架表示中包含哪些属性, 需要系统填充哪些槽, 都是事先设定好的。 而在自动文摘系统中,文摘的内容通常是不确定性的, 完全依赖于输入文档的内容, 而且输出结果一般是由自然语言描述的, 因此, 必须考虑语言生成的各个方面,诸如语言生成的连贯性、 合乎语法性和可读性等问题。 但是, 信息抽取与自动文摘有着非常密切的联系, 尤其在传统的信息抽取任务中文档分析阶段, 包括对主题的识别、 重要句子或关键信息的识别与抽取等很多方面, 几乎是一样的

信息抽取技术开始走向了迅速发展的时期, 尤其一系列国际性评测会议的组织, 如, MUC, TREC,ACE(automatic content extraction) 〔 4〕 , MET(multilingual entitytask) , SUMAC(summarization analysis conference) 等, 极大地推动了这一技术的发展, 尤其MUC的组织和召开对于信息抽取技术的发展起了决定性的促进作用。

评价标准:精度、召回率和F1;漏报( 标准答案中有, 但系统输出中没有) 和误报( 标准答案中没有, 而系统输出中有) 。

三大类(实体类、 时间类和数字类) 、 七小类(人名、 机构名、 地名、 时间、 日期、货币和百分比)

实体消歧

即一词多义的问题,比如苹果即可能指一种水果,也可能指苹果公司。

深度学习之前,可以利用实体上下文构建特征向量,然后计算相似度;现在实体都用embedding表示,Word2vec、glove无法处理歧义问题,但是bert模型出来后,实体的embedding能够根据上下文给出不同的结果。

实体链接

将从非结构化的文本中识别的实体跟知识库(如知识图谱)中的实体概念关联。

实体关系

定义schema,然后再抽取关系,其实就是槽填充。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值