利用R-GCN建模习题-概念图
摘要
知识跟踪(Knowledge tracking, KT)是为学生定制个性化学习路径,让学生掌握自己的学习节奏的基本工具。KT的主要任务是模拟学生的学习状态,但这个过程是相当复杂的。**首先,由于现实教育数据的稀疏性,以往的KT模型忽略了问题技能中的高阶信息;**第二,在处理长期依赖时,学生互动的长序列给KT模型带来了严峻的挑战;最后,由于遗忘机制的复杂性。针对这些问题,本文提出了一种基于图的专注知识搜索模型(GASKT)。该模型将问题和技能划分为两类节点,利用R-GCN通过嵌入传播将问题和技能的相关性彻底融合,减少了稀疏数据的影响。此外,它采用改进的注意机制来解决长期依赖问题。对于问题间的注意权重得分,在使用比例点积的基础上,充分考虑了遗忘机制。我们在几个真实的基准数据集上进行了大量的实验,我们的GASKT优于最先进的KT模型,至少提高了1%的AUC。
1 引言
每个学生都有自己的学习节奏,但在传统的课堂中很难实现个性化教育。为了满足不同的学习需求,计算机辅助教育(CAE)系统以其先进的技术开辟了新的领域。知识追踪(Knowledge tracing, KT)是CAE系统的一项基本任务,旨在基于历史学习互动来评估学生知识状态的动态变化。
在KT领域已经有了广泛的研究。但是,最近的KT模型主要有以下三个缺点。首先,由于教育数据的稀疏性,问题与技能之间的高阶信息没有得到充分利用。其次,由于学生的交互是一个很长的序列,人们普遍认为循环神经网络不善于捕捉这种长期的依赖关系。最后,人类大脑遗忘机制的复杂性仍然是一个主要挑战。
深度知识追踪(Deep Knowledge Tracing, DKT)[1]是第一种深度知识追踪方法,它利用长短期记忆(Long - term - Short-Term Memory, LSTM)[2]预测学生的未来表现。由于DKT使用一个隐变量来表示知识状态,因此很难跟踪学生的动态学习过程。动态键值记忆网络(Dynamic key - value Memory Networks, DKVMN)[3]在记忆增强神经网络(Memory -augmented neural Networks, mann)的基础上进行了扩展,使用键矩阵来存储技能的表示,使用值矩阵来表征每种技能的知识状态。
然而,DKT和DKVMN都没有充分利用问题技能中的高阶信息,也没有充分考虑学生的遗忘行为。此外,它们基于RNN模式,不能有效地捕获练习之间的长期依赖关系。
DKT-forget[4]在DKT的基础上考虑了记忆机制,增加了三个遗忘特性,但仍然存在剩下的两个缺点。练习增强循环神经网络(EERNN)[5]从练习的文本信息中获取练习的嵌入,旨在获得丰富的信息,以解决教育数据稀缺的挑战。然而,在现实中,关于问题的文本信息难以获取,ennn未能充分考虑遗忘机制。基于图的知识追踪交互模型(GIKT)[6]利用图卷积网络(GCN)[7]得到问题和技能的高阶嵌入,并引入历史回顾模块,根据注意力评分选出最相关的前k个问题。然而,在GIKT中,对记忆机制考虑不足。例如,问题eτ虽然接近当前问题et,但由于其得分较低,会被过滤掉,这与近期信息在短期记忆中更清晰的事实不一致。
受DKT-forget[4]、ern[5]和GIKT[6]的启发,我们的基于图的专注知识追踪知识搜索模型(GASKT)结合了记忆机制和高阶嵌入的优势,以解决当前KT模型中的问题。具体来说,与使用双向LSTM编码文本信息的ern不同,我们利用图神经网络来实现练习的嵌入。此外,我们观察到问题和技能属于两种不同类型的节点,将它们之间的关系转化为一个异构图,并利用关系图卷积网络(R-GCN)[8]代替GCN(在GIKT中)提取高阶信息。在使用LSTM模型对学生知识状态进行建模的基础上,引入了注意机制,进一步增强了模型对长期依赖关系的捕获能力,并充分融入了遗忘行为。
综上所述,在本文中,我们提出了一个深度KT框架GASKT。我们的主要贡献如下:
- 利用R-GCN提取问题和技能的高阶信息,将问题和技能划分为两类节点,构建相应的异构图。
- 我们充分考虑了遗忘机制,采用改进后的注意机制来评估学生的未来表现。基于缩放点积计算出的相似度,我们将另外两个特征合并到问题之间的注意权重得分中:时间距离和过去的试验计数。
- 我们在三个基准数据集上进行了实验,结果表明GASKT与现有的解决方案相比具有更好的性能和更高的可解释性。
2 相关工作
知识追踪(Knowledge tracing, KT)是根据学生的历史学习互动来捕捉学生知识状态的动态变化的任务。
现有的知识追踪方法大致可分为贝叶斯知识追踪(BKT)、因子分析模型和深度学习模型三大类。
支架。[9]将学生的知识状态建模为一个二元变量,并使用隐马尔可夫模型根据学生的实践对变量进行更新和维护。一些研究还综合了其他一些因素,如个体学生的先验知识[10]、滑动和猜测概率[11]和项目难度[12]。
因子分析。在因子分析模型中,加法因子模型(AFM)[13]考虑学生对问题的尝试次数,而绩效因子分析模型(PF A)[14]分别计算积极尝试次数和消极尝试次数。
深度学习方法。在深度KT模型中,深度知识追踪(deep Knowledge Tracing, DKT)[1]是第一个将深度学习应用于KT的模型。另一个值得注意的模型是动态键值记忆网络(DKVMN)[3],它在记忆增强神经网络(MANNs)的基础上进行扩展,使用键矩阵存储技能表示,使用值矩阵表示和更新学生的知识获取能力。DKT-forget[4]建立在DKT的基础上,在模型的输入中加入了三个遗忘属性。DKT+[15]是DKT的改进版本,考虑了预测一致性的正则化。
然而,DKT和DKVMN都是基于RNN[16]的,这些模型及其变体在处理长序列时捕获能力较差。为了解决这一问题,注意机制在许多研究中得到了广泛的应用。自我注意知识跟踪(Self attention Knowledge Tracing, skt)[17]是第一个将自我注意机制纳入知识跟踪的模型。考虑到人们的记忆会随着时间呈指数下降,而重复练习会加深用户的记忆,很明显,普通的注意机制无法满足KT的要求,因此我们的GASKT结合学习者的遗忘特征:时间距离和过去的尝试计数,对注意机制进行了修改。
为了应对备用数据的挑战,一些模型将练习的文本内容纳入其中,如练习增强循环神经网络(EERNN)[5]通过双向LSTM提取文本特征。解决这个问题的另一种方法是利用图神经网络。基于图的知识追踪交互模型(GIKT)[6]是第一个在问题-技能中使用GCN学习高阶信息的KT模型。考虑到在现实中很难获得练习的文本信息,我们利用图神经网络来学习节点的嵌入。与GIKT不同的是,我们提出的GASKT采用R-GCN而不是GCN来提取节点间的高阶信息,将问题-技能关系图构造成一个异构图。