文本信息抽取指的是这样一类文本处理技术, 它从自然语言文本中自动抽取指定类型的实体(entity) 、 关系(relation) 、 事件(event)等事实信息, 并形成结构化数据输出[Grishman, 1997] 。
与自动文摘相比, 信息抽取一般是有目的地从文本中寻找所要的信息, 并将找到的信息转化成结构化格式表示, 一般采用类似框架的表示形式。 因此, 系统不需要生成自然语言的句子。 框架表示中包含哪些属性, 需要系统填充哪些槽, 都是事先设定好的。 而在自动文摘系统中,文摘的内容通常是不确定性的, 完全依赖于输入文档的内容, 而且输出结果一般是由自然语言描述的, 因此, 必须考虑语言生成的各个方面,诸如语言生成的连贯性、 合乎语法性和可读性等问题。 但是, 信息抽取与自动文摘有着非常密切的联系, 尤其在传统的信息抽取任务中文档分析阶段, 包括对主题的识别、 重要句子或关键信息的识别与抽取等很多方面, 几乎是一样的。
信息抽取技术开始走向了迅速发展的时期, 尤其一系列国际性评测会议的组织, 如, MUC, TREC,ACE(automatic content extraction) 〔 4〕 , MET(multilingual entitytask) , SUMAC(summarization analysis conference) 等, 极大地推动了这一技术的发展, 尤其MUC的组织和召开对于信息抽取技术的发展起了决定性的促进作用。
评价标准:精度、召回率和F1;漏报( 标准答案中有, 但系统输出中没有) 和误报( 标准答案中没有, 而系统输出中有) 。
三大类(实体类、 时间类和数字类) 、 七小类(人名、 机构名、 地名、 时间、 日期、货币和百分比)
实体消歧
即一词多义的问题,比如苹果即可能指一种水果,也可能指苹果公司。
深度学习之前,可以利用实体上下文构建特征向量,然后计算相似度;现在实体都用embedding表示,Word2vec、glove无法处理歧义问题,但是bert模型出来后,实体的embedding能够根据上下文给出不同的结果。
实体链接
将从非结构化的文本中识别的实体跟知识库(如知识图谱)中的实体概念关联。
实体关系
先定义schema,然后再抽取关系,其实就是槽填充。