论文地址:基于自然语言处理的教学设计学科知识图谱自动构建研究_陈荟
先验知识
依存句法:作用是识别句子中词汇与词汇之间的相互依存关系,属于浅层句法分析。
模式匹配法:使用正则表达式表示相应概念关系。
关联发现法
bootstrapping算法(自助法、自举法):利用有限的样本经由多次重复抽样,建立起足以代表母体样本分布之新样本,在机器学习中解决了样本不足的问题。 是一种面向应用的、基于大量计算的统计思维——模拟抽样统计推断。
条件随机场:线性条件随机场,是只考虑 概率图中相邻变量是否满足特征函数 F(y,x)的一个模型。
交叉验证
AE度量动词关系抽取算法
共性语义相似度算法
VMI算法
问题描述
学科知识图谱是一系列用来展示学科知识组织结构和内在逻辑的图形,属于垂直领域知识图谱的一个领域。构建教学设计学科知识图谱,提高教学设计学科的教与学质量。教学设计学科知识图谱可以帮助广大教育领域学习者梳理教学设计学科知识关系,更高效地学习教学设计学科,同时也为知识管理与可视化提供了一种可能,为教学设计学习推荐系统、自动问答系统等研究的知识库基础系统。
相关工作
学科知识图谱的建构主要有自底向上的学科知识图谱建构和自顶向下基于本体的学科知识图谱建构,大多研究采用自底向上的建构方法。目前学科知识图谱的构建研究还存在一些问题:基于依存句法模式匹配实体关系抽取精度还有待提高等;目前大多数研究的学科知识图谱实体关系为“匿名关系”或简单的分类关系,关系抽取实体关系种类不够丰富,导致学科知识关系查全率较低;因此有必要对学科知识图谱搭建中的**“非匿名”关系抽取**进行深人研究,进而提高学科知识图谱的精确度。
方法描述
基于自然语言处理技术,采用自底向上的学科知识图谱构建方法进行教学设计学科知识图谱的构建实验研究。
教学设计学科知识图谱构建的具体步骤包括(研究方法):
1.教学设计学科知识词典的构建
基于bootstrapping算法思想,选择jieba分词最大匹配规则作为训练分类器,进行词频统计,进而搭建教学设计学科词典;
2.教学设计学科知识实体抽取
基于学科字典的处理和机器学习相结合的抽取方法,为了得到全局的最优实体集解,选择条件随机场机器学习模型;对教学设计学科词典进行特征格式转化,提取词汇特征,形成的词典特征集合加入训练语料进行训练得到识别模型,利用得到的识别模型迭代标记测试语料完成教学设计学科实体识别。
3.教学设计学科实体关系抽取
语义关系类型主要分为分类关系和非分类关系。作者研究主要抽取学科知识的非分类关系,常见的非分类关系的抽取方法为模式匹配法、动词中心度量法、关联规则法。
基于语义关系对比,提出混合式实体关系模型:基于模式匹配的关系语料库非分类关系语抽取、基于动词度量的学科行为动词关系抽取。
基于模式匹配的教学设计学科非分类关系语料库搭建
采用AE度量动词关系抽取算法抽取学科行为动词,该算法通过统计两个实体出现在同一句时伴随出现的动词N的频率来度量动词关系。去除大众语义通用词,使用word2vec工具对包含这些动词的语料进行词向量训练和聚类扩充,最后对巨累几盒进行筛选,得到学科词关系实体集。
4.教学设计学科知识数据融合
实验结果
具体实验
数据来源:中国国家图书馆、CADAL数字图书馆网站相似度高的书籍文献作为教育来源+在线教育资源信息中心数据库中的教育领域<教育过程:课堂观点>、<学习和感知>词数据库关键词作为初始教学设计学科词典。
研究工具
采用anaconda Spyder 的jieba库和Word2Vec库进行相关数据处理和抽取,最终使用neo4j可视化平台进行教学设计学科知识图谱可视化。
实验结果
将文件导入至neo4j数据库中,最终得到教学设计的学科知识图谱。
个人评价
优点:基于自然语言处理的知识图谱自动构建;提出混合式关系抽取模型,最终获得五种教学设计行为动词关系。
缺点:数据集规模较小,如果能得到五种动词关系,如果数据集规模变大应该可获得跟过非匿名关系;获得关系类型较少。