选项追踪
摘要
知识追踪是指通过学生过去对问题的回答来评估每个学生的知识组成/技能掌握水平的一系列方法。大多数现有的知识追踪方法的一个关键限制是,由于它们只分析学生回答的正确性(通常是二进制值),所以只能估计学生每个知识成分/技能的整体知识水平。因此,很难用它们来诊断学生的具体错误。在本文中,我们将现有的知识追踪方法从正确性预测扩展到预测学生在多项选择题中选择的准确选项。我们定量评估了我们的选项跟踪方法在两个大规模学生响应数据集上的性能。我们还定性地评估他们识别学生常见错误的能力,即在不同的问题中对应相同错误的错误选项集群
1 引言
知识追踪(KT)[9]是指一组学生建模方法,通过学生过去对问题/项目的回答来估计他们对知识组件/技能/概念的掌握水平,并预测他们未来的表现。这些估计和预测可用于i)向学生提供其进展的反馈,特别是在智能辅导系统[44]和ii)驱动个性化,即选择每个学习者下一步应该采取的行动,以最大限度地提高他们的学习结果[10,28,36]。已经开发了许多不同的KT方法,从基于隐马尔可夫模型的贝叶斯知识追踪方法[21,33,46],基于因素分析的方法,如学习因素分析[5],性能因素分析[34],以及项目难度、学生能力、技能和学生技能实践历史(DAS3H)方法[7],到基于深度学习的方法[15,31,32,35,45,47]。这些方法都取得了不同程度的成功;其中一些方法,包括大多数基于贝叶斯知识追踪和因素分析的方法,表现出出色的可解释性,而其他基于深度学习的方法则在可解释性的基础上权衡了对学生未来表现的优秀预测准确性
然而,这些KT方法的一个关键限制是,它们只对(通常是二进制值)回答数据进行操作,这些数据表明学生对问题的回答是否正确。因此,他们只能估计学生对每个知识组成部分的整体掌握水平。然而,并不是所有的错误答案都是相同的:一个数学问题[27]可能有很多错误的答案,它们是由不同的潜在错误引起的。研究表明,学生产生的错误答案中,只有一小部分可以通过集成到智能辅导系统[24,36,41]、教师[11]和数值模拟[11,37]中的认知模型进行预测和解释。典型的潜在错误包括有一个“bug规则”[4],表现出某种误解[12,13,38],或对某些知识组件[2]普遍缺乏知识。由于仅从正确数据很难诊断这种学生的错误,因此需要开发分析学生全部反应的KT方法。
一些数据集,包括大规模的Eedi1[43]和EdNet2[8]数据集,包含了学生在多项选择题(MCQs)中选择的选项;这个选项数据为我们提供了一个机会来扩展现有的KT方法来分析特定的学生选项选择,而不是他们的答案的正确性。在理想情况下,设计良好的MCQs应该有精心设计的错误分心选项,每个选项对应一个或多个典型的学生错误;图1显示了一个来自Eedi数据集的示例,用于两个关于主题括号、索引、除法、乘法、加法、减法(BIDMAS)的问题。选项C对应的是同样的错误,即没有完全掌握“操作顺序”,总是从左往右。然而,手动识别这些错误是一个不可扩展和劳动密集型的过程,因为大多数现有的mcq在每个错误选项下的错误上都没有一致的标签。因此,探索我们是否可以开发KT方法来识别每个错误选项对应的错误,并潜在地自动诊断学生的错误是很重要的。这些方法将是有用的,通过i)通知教师与学生沟通,以了解他们的错误的来源,ii)使自动反馈的发展,iii)使设计替代教学方法,如要求学生批评错误的例子
在本文中,我们开发了选项跟踪(OT),一个KT框架,使用每个学生在每个问题上选择的确切选项作为输入和预测输出。我们将现有的几种KT方法扩展到OT设置中,包括基于长短时记忆(LSTM)网络的方法、深度知识追踪(DKT)[35]、基于图卷积网络的方法、基于图交互模型的知识追踪(GIKT)[45]和基于注意网络的方法、专注知识追踪(AKT)[15]。我们强调,本文的目的不是比较所有KT方法;相反,我们的目标是研究如何推广它们来分析mcq中的学生选项选择。因此,我们只研究一些有代表性的方法。我们在Eedi和EdNet数据集上进行了以下实验:首先,在选项预测任务中,我们定量评估了协同过滤(CF)设置(由NeurIPS 2020教育挑战[43]引入)和典型KT设置下的OT方法。其次,我们使用聚类算法将多个问题中的错误选项分组为共享的潜在错误簇,定性地展示了OT框架所展示的可解释性。结果表明,学习到的聚类与领域专家手工识别的聚类在一定程度上是匹配的。因此,OT可能提供一种自下而上的错误识别方法,通过从实际数据中提取学生的错误,而不是典型的在看到数据之前预测错误的自上而下的方法。
2 相关工作
学生在mcq中选择的选项可以看作是一种分类数据,这在之前的项目反应理论(IRT)和推荐系统研究社区中都有研究。然而,在这两种情况下,以前的大多数工作都关注于类别排序的情况。在IRT研究中,使用基于IRT的多元模型[25,26,30]对学生的回答进行建模,这些回答包含多个有序类别,如字母分数和部分学分。在推荐系统研究中,使用基于神经协同过滤(NCF)的方法来建模用户对[20]项目提供的星级评价。对于无序的分类数据,相对较少的模型如IRT研究领域的标称响应模型(NRM),该模型已被应用于mcq的分析[40,42]。
3 数据和问题设置
Eedi数据集包含了超过10万名学生对389个标记对象的27613个mcq的回答,在一年多的时间里总共超过1500万个回答。每个答案对应学生在每个问题上选择的选项(在四个选项中,{a,B,C,D})。我们还将使用Eedi数据的一个小子集,在那里我们可以访问准确的问题(以图像的形式)进行定量分析;这个数据集包含了4900多名学生对948个问题的回答,总计超过130万份回答。EdNet数据集包含了超过70万名学生对189个被标记的受试者的13169个mcq的回答,在两年多的时间里总共有超过9500万个回答。
为了进行评估,我们使用了两个实验装置。首先,在CF设置中,任务是根据每个学生对其他问题(可能在将来)的回答,预测每个学生对他们所回答的问题子集的回答。这种设置的流行方法是神经协同过滤(NCF)[20]和图卷积网络(GCN)[3,23]。第二,在评估KT方法的KT设置中,任务是根据每个学生过去的整个回答历史预测他们对未来问题的回答。
6 结论
分析学生在多项选择题中选择的选项有可能揭示他们的错误模式,并帮助教师提供有针对性的反馈,以提高学习效果。在本文中,我们提出了一套方法,将只分析学生回答问题的正确性的常见知识追踪方法扩展到分析学生在多项选择题中选择的确切选项。我们在两个大型数据集上进行了定量实验,验证了这些方法预测学生在每个问题上选择的选项的能力,并通过定性实验验证了根据潜在错误聚类错误选项的能力。未来的工作有很多途径。首先,我们需要开发能够意识到学生错误演变性质的方法。一种可能的方法是开发可以明确解释过去错误重现的方法,例如使用神经复制机制[18];这些方法可以帮助我们跟踪学生改正错误的进度。第二,选项预测任务F1分数较低,说明它比知识追踪文献中典型的正确性预测任务更具挑战性,值得重视。