1.信息抽取
信息抽取是知识图谱构建的第一步,其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。知识抽取是一种自动化地从结构化、半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括:实体抽取、关系抽取和属性抽取。
1.1 实体抽取
实体抽取,主要是命名实体识别,指从文本数据集中自动识别出命名实体。实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,因此是信息抽取中最为基础和关键的部分。实体抽取的目的是抽取文本中的人名、地名、机构名、专有名词等,实际生产中可以根据自己业务需要定制化抽取所需实体。
实体抽取通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。
根据领域划分,实体抽取主要有面向单一领域(如特定行业或特定业务)的实体抽取,随着命名实体技术的发展