技术特征:
1.一种基于深度学习方法的大学计算机基础知识图谱构建方法其特征在于,采用bert-idcnn-crf算法训练知识点实体识别模型,从大学计算机基础课本文本内容中自动抽取知识点实体;采用bert-bilstm-cnn算法训练关系识别模型,自动抽取知识点实体之间的关系;基于word2vec生成知识点实体词向量,通过计算知识点实体之间的相似度进行实体消歧。
2.根据权利要求1所述的一种基于深度学习方法的大学计算机基础知识图谱构建方法,其特征在于,所述知识图谱构建方法具体包括以下步骤:
步骤1,对知识点实体识别训练集的语料进行预处理,分离文本中的标点符号,将文本以句号划分以及词性标注;
步骤2,使用bert-idcnn-crf算法进行训练生成知识点实体识别模型;
步骤3,对关系识别训练集的语料进行预处理,分离文本中的标点符号,将文本以句号划分以及词性标注;
步骤4,使用bert-bilstm-cnn算法进行训练生成关系识别模型;
步骤5,对大学计算机基础课本文本内容进行预处理,分离文本中的标点符号以及将文本以句号划分;
步骤6,将步骤5预处理过的大学计算机基础课本内容输入步骤2生成的知识点实体识别模型中,抽取知识点实体;
步骤7,对步骤6获取到的知识点实体采用基于word2vec计算知识点实体相似度的方法对知识点实体表达的歧义进行消除;
步骤8,对大学计算机基础课本的各级目录通过人工筛选的方式获取知识面实体;
步骤9,将步骤6、步骤7提取的知识点实体、知识面实体储存到实体数据库;
步骤10,将步骤5预处理过的大学计算机基础课本内容输入步骤4生成的关系识别模型中,抽取知识点之间的关系;
步骤11,基于匹配算法提取知识面实体之间,知识面实体与知识点实体之间的关系;
步骤12,对步骤9、步骤10提取的关系信息,存入关系信息数据库;
步骤13,将实体数据库中的实体数据和关系数据库中的关系数据相匹配,构成形如“实体-关系-实体”的rdf三元组形式;
步骤14,将步骤13中得到的rdf三元组存储到neo4j图形数据库中,得到大学计算机基础知识图谱。
3.根据权利要求2所述的一种基于深度学习方法的大学计算机基础知识图谱构建方法,其特征在于,所述步骤2中,使用bert-idcnn-crf算法训练实体识别模型,整个模型分为三层,分别是bert层、idcnn层和crf层;bert预训练模型可以得到上下文相关的字向量表示,idcnn层抽取文本的特征,crf层能通过考虑标签之间的相邻关系得到概率最大的标签序列。
4.根据权利要求2所述的一种基于深度学习方法的大学计算机基础知识图谱构建方法,其特征在于,所述步骤4中,使用bert-bilstm-cnn算法训练关系识别模型,整个模型分为三层,分别是bert层、bilstm层和cnn层;bert层可以得到一个字的上下文相关表示,能够表示句子的句法特征;bilstm层可以从正向和反向充分考虑句子结构表达的信息,提取句子的特征;cnn能够抽取更为丰富的文本特征信息,并对冗余的信息进行过滤。
5.根据权利要求2所述的一种基于深度学习方法的大学计算机基础知识图谱构建方法,其特征在于,所述步骤8中,节点有两种类型,分别为知识面节点和知识点节点;知识面实体为概括性的知识,知识点实体为知识面实体下更为具体的知识,因为目录中包含的是所有概括性的知识,所以从目录中抽取知识面实体。
6.根据权利要求2所述的一种基于深度学习方法的大学计算机基础知识图谱构建方法,其特征在于,所述步骤11中,在大学计算机基础知识图谱中,知识面实体之间有前驱关系,前驱关系代表了知识的连续性,只有掌握了前一部分知识,才可以掌握下一部分知识,知识面实体与知识点实体之间有包含关系。