信息抽取概述
信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。粗浅的来说它的任务是从大量数据中准确、快速地获取目标信息,并将其以结构化的形式储存起来,方便以后的分析和处理,从而提高信息的利用率概率。模型/分类器可以帮助实现这些任务。
1任务
- 命名实体识别
- 实体消歧
- 关系提取
- 事件抽取
1.1 命名实体识别
命名实体识别是信息抽取的基础,是第一步,也是必须的一步。
命名实体识别的主要任务是识别出待处理文本中七类命名实体,分别为人名、机构名、地名、时间、日期、货币和百分比。
在这七类当中,时间、日期、货币、百分比相对而言其构成具有很明显的规律,识别起来相对容易,但是剩下的三类由于用字灵活,所以识别难度很大。命名实体的内部构成和外部语言环境具有一些特征,无论何种方法,都在试图充分发现和利用实体所在的上下文特征和实体的内部特征。
1.2 实体消歧
命名实体的过程中不免会出现一个实体对应多个实体的现象,简单的来说就是一个词语对应多个含义。实体消歧就是为了确定实体指称项所指向真实的实体。
针对方法的不同可以分为基于聚类的实体消岐和基于实体链接的实体消岐。
1.3 关系抽取
实体关系抽取作为文本挖掘和信息抽取的核心任务,其主要通过对文本信息建模,自动抽取出实体对之问的语义关系,提取出有效的语义知识。其研究成果主要应用在文本摘要、自动问答、机器翻译、语义网标注、知识图谱等。
其研究成果主要应用在文本摘要、自动问答、机器翻译、语义网标注、知识图谱等。