【论文解读|IJCAI2020】PEBG - Improving Knowledge Tracing via Pre-training Question Embeddings

在这里插入图片描述
【注】本文其实没有用到图神经网络的内容
预训练框架
预训练问题嵌入

摘要

知识追踪(KT)定义了一项任务,即根据学生过去的回答来预测他们是否能正确回答问题。虽然人们对问题信息的开发研究很多,但问题和技能之间的大量高级信息并没有很好地提取出来,这使得以往的工作难以充分发挥作用。在本文中,我们证明了通过对每个问题丰富的隐含信息进行预训练嵌入,可以在KT上获得巨大增益,然后在获得的嵌入上训练深度KT模型。隐含信息包括问题难度和二部图中的问题与技能之间的三种关系。为了预训练问题嵌入,我们提出使用基于乘积的神经网络来恢复隐含信息。因此,在现有的深度KT模型中采用预先训练的嵌入,在三个常见的KT数据集上显著优于最先进的基线。

1引言

计算机辅助教育(CAE)系统寻求利用先进的计算机技术来提高学生的学习能力和教师的教学效率[Cingi, 2013]。在CAE系统中,知识追踪是一项重要的任务,其目的是根据学生的学习历史来评估其随时间变化的知识状态。具体来说,KT的目标是,根据之前的所有回答记录,预测学生是否能正确回答下一个问题。
为了解决KT问题,人们提出了多种方法,包括贝叶斯知识追踪(BKT) [Corbett and Anderson, 1994;Zhu et al., 2018],因子分析模型[Wilson et al., 2016;Pavlik Jr et al., 2009]和深度模型[Piech et al., 2015;Zhang et al., 2017]。在本文中,我们主要关注深度KT模型,这些模型利用了深度学习的最新进展,并在KT中取得了巨大的成功。一般来说,大多数深度KT模型估计的是学生对技能的掌握程度,而不是直接预测她正确回答特定问题的能力。两种代表性的方法是DKT [Piech et al., 2015]和DKVMN [Zhang et al., 2017]。

在本文中,我们采取了进一步的措施,最大限度地提取和利用问题和技能之间的丰富的潜在信息,以解决稀疏性问题。考虑到通常一个技能包含许多问题,一个问题也与几个技能相关,我们可以将它们表示为一个二部图,其中顶点分别是技能和问题。一般来说,二部图包括两种关系[Gao et al., 2018]:显关系(即观察到的链接)和隐关系(即未观察到但传递的链接)。在如图1所示的KT场景中,除了显式的问题-技能关系外,我们考虑了隐式的技能相似度和问题相似度,这在以前的工作中没有得到很好的利用.

考虑到这些因素,本文提出了一种预训练方法,即通过二部图预训练嵌入(PEBG),用于学习包含所有有用附加信息的每个问题的低维嵌入。附加信息包括问题难度和三种关系:外显问题技能关系、内隐问题相似度和技能相似度。为了有效提取附加信息中包含的知识,我们采用product层融合问题顶点特征、技能顶点特征和属性特征,生成最终的问题嵌入。这样,习得的问题嵌入将保留问题难度信息以及问题与技能之间的关系。

本文的贡献总结如下:

  • 我们最早利用问题-技能关系的二部图来获得问题嵌入,提供了丰富的关系信息。
  • 我们提出了一种预先训练的方法,称为PEBG,它引入了一个产品层来融合所有的输入特征,以获得最终的问题嵌入。
  • 通过PEBG得到的问题嵌入可以纳入到现有的深度KT模型中。在三个真实数据集上的实验结果表明,使用PEBG可以比最先进的模型提高8.6%的AUC。

2 相关工作

以往的KT方法大致可分为三类:贝叶斯知识追踪(Bayesian Knowledge Tracing, BKT)、因子分析KT模型和深层KT模型。[Corbett and Anderson, 1994]提出了贝叶斯知识追踪(Bayesian Knowledge Tracing, BKT)模型,该模型是一种隐马尔科夫模型,假设学生的知识状态是一组二元变量。BKT对每个技能状态分别建模,无法捕捉技能之间的关系。
KT的另一种方法是因子分析。因素分析是考虑影响学生状态的因素,包括问题的难度、学生的能力、对某一问题的正确答案的比例等。因素分析模型包括项目反应理论(IRT) [Wilsonet al., 2016]、加性因素模型(AFM) [Cenet al., 2006]、性能因素分析(PFA) [Pavlik Jret al., 2009]、知识追踪机(KTM) [Vie and Kashima, 2019]。这些模型只考虑每个问题或技能的历史交互作用,也未能捕获问题和技能之间的关系。
随着深度学习的兴起,人们提出了很多求解KT的深度模型,其中大部分的前期工作都是使用技能作为网络输入。例如,[piecheet al., 2015]提出了Deep Knowledge Tracing (DKT)模型,该模型使用递归神经网络(RNN)对学生的学习过程进行建模。动态Key-V值记忆网络(Dynamic Key-V value Memory Network, DKVMN),由[Zhanget al., 2017]提出,通过一个Key-V值记忆网络自动发现练习与其基础概念之间的关系,跟踪每个概念状态。PDKT-C模型[Chenet al., 2018]手动标注技能之间的前提关系,但不适用于大规模数据。GKT模型[Nakagawaet al., 2019]随机构建技能相似图,并自动学习图的边权来帮助预测。
由于技能水平预测不能完全反映具体问题的知识状态,一些著作提出利用问题信息作为补充。例如,[Suet al., 2018;Huanget al., 2019]将问题的文本描述编码为问题嵌入,以捕获问题特征,但在实践中文本描述不易获取。[Minnet al., 2019]计算错误答案的百分比作为问题难度,以区分不同的问题。DHKT [Wanget al., 2019]使用问题与技能之间的关系作为约束来训练问题嵌入,问题嵌入与技能嵌入一起作为DKT的输入。在本文中,我们主要研究如何预先训练每个问题的低维嵌入,可以直接用作网络的输入。

3 问题定义

定义1:

定义2:

定义3:

5 实验

在本节中,我们通过实验来评估基于我们提出的PEBG模型预训练的问题嵌入的知识追踪模型的性能。

5.1 数据集

我们使用三个真实的数据集,这三个数据集的统计数据如表1所示。
在这里插入图片描述
ASSIST092和ASSIST123均来自ASSISTments在线辅导平台[Feng等,2009]。对于这两个数据集,我们删除没有技能和脚手架问题的记录。我们还删除了记录少于三条的用户。经过预处理,ASSIST09数据集包含123项技能、15911个问题,由3841名学生回答,共有190,320条记录。ASSIST12数据集包含265个技能,47104个问题,由27,405名学生回答,1,867,167个记录。

EdNet4由[Choi等人,2019]收集。在本实验中,我们使用由学生解题日志组成的EdNet-KT1数据集,随机抽取5000名学生的222,141条记录,包含13169个问题和188个技巧

5.2 比较模型

为了说明我们的模型的有效性,并展示我们的模型对现有深度KT模型的改进,我们比较了最先进的深度KT模型之间的预测性能。我们将比较的模型分为技能级模型和问题级模型。

技能级模型只使用技能嵌入作为输入,它们都跟踪学生对技能的掌握情况。

•BKT [Corbett和Anderson, 1994]是一个两态动态贝叶斯网络,由初始知识、学习率、滑移和猜测参数定义。

•DKT [Piech等,2015]使用循环神经网络建模学生技能学习。

•DKVMN [Zhang等人,2017]使用键值记忆网络来存储技能的底层概念表示和状态。

除了技能级模型,以下模型利用问题信息进行问题级预测。

•KTM [Vie和Kashima, 2019]利用因式分解机进行预测,让学生id、技能id、问题特征相互作用。•DKT- q是我们对DKT模型的扩展,直接使用问题作为DKT的输入,预测学生对每个问题的反应。

•DKVMN- q是我们对DKVMN模型的扩展,它直接使用问题作为DKVMN的输入,并预测学生对每个问题的反应。

•DHKT [Wang et al, 2019]是DKT的扩展模型,它模拟了技能-问题的关系,也可以预测学生对每个问题的反应。

我们基于技能级深度学习模型来测试我们的模型。PEBG+DKT和PEBG+DKVMN利用PEBG预训练的问题嵌入,使DKT和DKVMN实现问题级预测。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值