3.卫星导航xx领域知识图谱数据层构建
卫星导航xx领域知识图谱数据层构建的目标是基于知识图谱模式层的定义,运用深度学习等技术,从非结构化卫星导航xx文本数据中进行知识抽取,从而获得卫星导航xx实体及其关系数据,实现卫星导航xx知识图谱的半自动化构建。
非结构化文本中的知识抽取是构建数据层的关键环节。本研究针对非结构化文本中的卫星导航xx知识图谱进行数据层构建,其流程如图3-5所示。首先,本文提出了一种基于高速循环神经网络的中文命名实体识别方法,旨在从卫星导航xx领域的文本数据中抽取相关实体,并进行标注。根据标注得到的实体标签,本文采用基于预定义规则的关系抽取方法,识别并分类文本数据中的实体间关系,形成卫星导航xx领域的三元组数据。通过基于余弦相似度算法的知识融合方法,完成知识的对齐和合并。最终,将提取的实体、关系及三元组数据保存为CSV格式文件,以便导入Neo4j图数据库进行存储。
本文的研究旨在通过命名实体识别技术和关系抽取技术,针对卫星导航xx领域相关实体进行有效的知识抽取。具体操作包括标注并识别相关实体标签,依据预先定义的标签间关系来实现实体间的关系的抽取。这些方法有助于简化构建卫星导航xx领域知识图谱的知识抽取过程,从而提升卫星导航xx领域知识图谱构建的效率。最终实现卫星导航xx领域知识图谱的半自动化建设。
3.1 数据标注
在命名实体识别中,数据标注的准确性是至关重要的,这一过程涉及到对原始的文本数据进行标注,转换成机器能够识别的格式。本研究中采用BMESO标注策略进行人工标注。如图3-6所示。例如,针对卫星导航xx领域的文本“导航信号干扰会导致定位精度下降”,其数据标注结果为“导/B-INTF 航/M- INTF 信/M-INTF 号/M-INTF 干/M-INTF 扰/E-INTF 会/O 导/O 致/O 定/B-ERR 位/M-ERR 精/M-ERR 度/M-ERR 下/M-ERR 降/E-ERR”。其中,INTF代表干扰源,ERR代表定位误差。“导/B-INTF”表示“导”位于该实体的开始位置,“航/M-INTF”和“扰/E-INTF”分别表示实体的中间和结尾部分。“会/O”表示非命名实体字符,“S”表示单个字符的实体。