NeuralCD--智能教育系统中的神经认知诊断

论文题目:Interpretable Cognitive Diagnosis with Neural Network
作者:中国科学技术大学陈恩红、刘淇团队完成,收录在AAAI-2020.
论文资源已经上传:https://download.csdn.net/download/qq_36317312/13184166

Abstract

  • 提出了一种通用神经认知诊断(NeuralCD)框架,该框架结合神经网络来学习学生和练习因素向量之间的复杂交互作用
  • 借鉴教育心理学的单调性假设,保证了因素向量的可解释性。
  • 根据真实数据集上的大量实验结果表明,NeuralCD框架具有较高的准确度和可解释性。

1、Introduction

认知诊断(Cognitive Diagnosis)应用场景:教育、游戏竞技、医疗诊断,是一项十分必要且基础的任务,其中在智慧教育场景应用最为广泛。
认知诊断(Cognitive Diagnosis):在智能教育系统中,认知诊断旨在发现学生在学习过程中的状态,例如他们对知识概念的熟练程度。例如图1,通过收集学生的行为记录(通常是答题记录)和试题信息(如试题文本),来推断学生当前的知识状态。
在这里插入图片描述
具体过程是:学生通常首先选择练习一组练习(例如,e1,···,e4),然后留下他们的答案(例如,对或错)。然后,根据相应的概念(例如方程)来推断他们的实际知识状态以及掌握程度。我们可以看到,e1–e4每个题目都对应知识点相关内容,可以看到这个同学e1题目作对了,那么可以在Diagnostic Report中认为这位同学掌握度比较高,e3题目做错了,那么同样在Diagnostic Report中诊断出对(坐标轴、方程)掌握的不好,在诊断报告中小于0.5。

2、Background

基于认知诊断角度

认知诊断并不是一个新兴的概念,在教育心理学领域已有数十年的发展。教育心理学的相关研究中,项目反映理论(Item Response Theory, IRT)DINA(Deterministic Input, Noisy And)模型是其中最经典的两类工作。

  1. IRT
    在IRT模型中,每个学生和试题分别用一个单维的连续变量表征(记为θ和β),其中θ表示学生的综合能力,β表示试题的整体难度。学生和试题之间的关系使用Sigmoid函数建模,一个简单的IRT反应函数中,学生i答对试题j的概率为:
    在这里插入图片描述
  2. DINA
    在DINA模型中,每个学生和试题分别用一个离散向量表征(记为 θ和β),其中试题表征β直接取自Q矩阵的对应行,表示该试题包含的知识点。这里Q矩阵是一个人工标注的试题-知识点关联矩阵,每一行对应一道试题,每一列对应一个预定义的知识点,有:
    在这里插入图片描述
    DINA模型中,学生i与试题j之间的关系被建模为:
    在这里插入图片描述
    式中 gj 表示试题的猜对概率, sj表示试题的失误概率。其函数基于的假设是:学生要答对试题,需要掌握该试题需要的所有知识点并且不失误,否则只能以概率 gj猜对。

基于数据挖掘角度–矩阵因式分解

近年来,从数据挖掘的角度进行的一些研究已经证明了模糊神经网络用于认知诊断的可行性。
MF(矩阵因式分解)
在矩阵因式分解(MF)中,学生和习题对应于用户和项目
采用改进的奇异值分解(SVD)方法对得分矩阵进行分解,得到学生和习题的潜在特质向量。
将矩阵分解等推荐系统技术应用于教育领域,并与传统的回归方法进行了比较。
针对智能教学系统中的学生建模问题,提出了一种多关系因子分解方法,尽管它在学生成绩预测任务(即根据学生的诊断结果预测学生的练习成绩)中是有效的,但它的潜在特质向量不能用于认知诊断。

基于人工神经网络

人工神经网络的技术已经在许多领域达到了最先进的水平,例如语音识别、文本分类和图像翻译等领域。
深度知识追踪(DKT)首次尝试使用递归神经网络对学生的学习过程进行建模,旨在跟踪学生知识状态的动态变化,然而,这些工作与认知诊断的最大差异在于,它们的主要目标是预测下一时刻学生答对各道题目的概率,多数工作中不严格区分试题与其包含的知识点,因而不具有认知诊断所需要的高度可解释性,不适合直接作为认知诊断方法。
缺点:不适合用于认知诊断,主要目的是预测学生的表现。

目前主要挑战:神经网络的黑箱性质使得它们很难得到可解释的诊断结果,很难明确地认识到一个学生掌握了多少知识概念(例如坐标)。

可能性机遇:强大的拟合能力使其能够从数据中学到更为复杂且贴近现实的交互函数,且神经网络在自然语言处理方面取得的成功也使将试题文本运用到认知诊断成为可能。

在这样的背景下,我们提出神经认知诊断(Neural Cognitive Diagnosis,NeuralCD)框架,期望利用神经网络,通过简洁的形式设计一类效果好且高度可解释的泛用性认知诊断框架,直接从数据中学习学生与试题之间的交互函数,而非人工设计。并且得益于神经网络在各领域的成功,框架能够利用试题文本等异构数据,提高模型的学习能力。

3、Neural Cognitive Diagnosis(NeuralCD)

3.1、问题定义

设在一个学习系统中有N个学生,M道试题,K个知识点。学生集合 S ={s1,s2,…,sn} ,试题集合 E = {e1,e2,…,en},知识点集合 Kn = {k1,k2,…,kn}。学生的答题记录可以表示为三元组 (s,e,r)的集合R,其中 s∈S, e∈E, r 是学生 s 在试题 e 上的得分(转换为百分比)。此外,有将试题与知识点关联的Q矩阵 Q={Qij}M×K(例如,有教研专家提前标注)。

任务:给定学生答题记录 R 和 Q 矩阵 Q ,我们的认知诊断的任务是通过学生答题预测的过程获取学生在各个知识点上的掌握程度。

3.2、NeuralCD 框架

几乎所有传统认知诊断系统需要考虑三因素:学生参数、试题参数、学生与试题交互函数,其合理性已被大量工作验证,因此神经认知诊断框架NeuralCD亦沿用此方式,其结构如图2:
在这里插入图片描述
NeuralCD将认知诊断分为三个部分:学生因素、试题因素和交互函数(在图中分别用不同颜色标注。学生因素最基本的是知识点熟练度向量 FS ,试题因素则包括基本的知识点相关度向量 Fkn 和其他可选因素 Fother (如试题难度、区分度等)。交互函数则由多层神经网络构成,这是与传统方法最大的不同点。NeuralCD的输入为答题记录中学生和试题的one-hot向量,输出为学生答对该试题的预测概率。

  1. 输入层需要包含 FS * Fkn(“ * ”表示按元素乘),这是为了让 FS中的每一维都与Fkn中对应维的知识点对应;

  2. 对多层神经网络使用“单调性假设”来约束。单调性假设是教育心理学方法中常用的假设,其内容是:学生答对试题的概率随学生任意一维知识点熟练度单调递增(不需要严格单调)。换句话说,在训练过程中,若模型的预测值小于真实得分,则需要提高该学生的中 FS的值;反之则降低 FS中的值。而具体调整 FS中的哪些维度,则是由 Fkn 控制。

3.3 NeuralCDM(神经认知诊断模型)

在上述3.2 NeuralCD的基础上,下面就是介绍一下NeuralCDM实现过程
在这里插入图片描述

  • 学生因素
    根据上面提到的Fs现在为hs
    在这里插入图片描述
    Xs是Student one-hot向量,A是所有学生的熟练度矩阵,相乘为这个学生在知识点的熟练度
    在这里插入图片描述
  • 试题因素
    知识点相关度向量(对应前述的 )直接取自人工标注的Q矩阵
    Xe 是试题的one-hot向量
    hdiff 试题的知识点难度向量,表示试题对每个知识点考察的难度
    hdisc 试题区分度向量,表示试题区分不同水平学生的能力
    在这里插入图片描述
    在这里插入图片描述
    A、B、D都是通过数据学习的可训练参数
    在多层神经网络的输入层为:
    在这里插入图片描述
    下面就是两个完整的连接层和一个输出层
    在这里插入图片描述
    验证单调性假设,将W1、W2、W3的每个元素限制为正,在这里插入图片描述
    熟练度向量中值 hs 的调整方向与输出的预测值y的变化方向一致。

最后,神经网络的损失函数是输出y(预测值)和真实标签r(真实得分)之间的交叉熵:在这里插入图片描述
训练结束后,学生对应的 hs即为该学生的诊断结果,每一维对应该学生在该知识点上的掌握程度(范围(0,1))。

3.3-1 NeuralCDM+拓展文本信息

试题文本与试题信息是十分相关的,例如通过试题文本预测试题的难度、区分度、知识点等。这里我们不对所有相关性进行讨论,而是选取其中的一种展示NeuralCD的可扩展性。

在NeuralCDM和一些传统方法(如DINA)中,通过Q矩阵获取试题与知识点的关联信息。然而,人工标注的Q矩阵不可避免地主观性甚至错误。例如,对于一道解方程的问题,专家可能只标注了其中的主要考点“Equation”,但是却忽略了其中乘除法的知识点。而通过试题文本,发现其中包含除法符号“÷”,可以将此知识点补充。基于此,我们利用试题文本对NeuralCDM进行扩展,记为NeuralCDM+,其结构如图4:
在这里插入图片描述
预先训练一个卷积神经网络(CNN),输入试题文本来预测与试题相关的知识点,取其输出的Top-k知识点集合 Vik作为预测结果。
接下来我们通过将 Vik与Q矩阵结合来得到优化后的 Q~。使用如下的偏序关系表示一道题中各个知识点的相关度:
在这里插入图片描述
这是因为尽管人工标注的Q矩阵存在部分缺点,但仍然具有较高的可信度,因此Q矩阵中标注的知识点最有可能有较高的相关度。而既非标注也未被预测的知识点则认为是与该题无关。我们采用概率模型的方式来实现这一偏序关系,并最终得到经文本预测补充的知识点相关度矩阵 Q~,代替NeuralCDM中的 Q。

3.4 NeuralCD的泛化性

NeuralCD是泛化性较强的认知诊断框架,可以覆盖许多传统的认知诊断模型,一些传统的认知诊断模型可被视为NeuralCD的特例(如矩阵分解、IRT、MIRT等)。
例如,IRT与NeuralCD的关系可被下图来概括,
在这里插入图片描述
如果将NeturalCD的Q从多维的话降维到一维,那么知识相关度向量固定为1,同时后面的神经网络形成的交互函数退化为单个激活函数(Sigmoid函数),那么就是IRT的模型。

MIRT是IRT 的拓展,主要是利用练习和学生的多维潜在特质向量
在这里插入图片描述
令hdisc=1,然后设置W1=[1,1,…,1],b1=0,那么就生成了在这里插入图片描述
其中在这里插入图片描述
下面用另外两层神经网络来实现。

因此,NeuralCD是可以覆盖许多传统的认知诊断模型,像IRT 或者MIRT都是它的特例。

3.5、实验

实验中使用了两个真实世界的数据集,即Math和Assisted
Math:是科大讯飞的在线学习平台智学网提供的私有数据集,包含多所高中的期末考试试题、文本和答题记录。
Assisted:是公开数据集ASSISTment 2009-2010 Skill-Builder,包含数学试题和学生答题记录。暂无提供试题文本,所以NeuralCDM+并未在该数据集上进行实验。
在这里插入图片描述
上表展示的是两个数据集Math、Assist的各个数据情况,同时设置的是对每个学生的回答日志进行80%/20%的训练/测试拆分。

学生答题预测

认知诊断模型的性能很难评估,因为我们无法获得学生的真实知识水平。由于在大多数研究中,诊断结果通常是通过预测学生的表现来获得的,所以在这些预测任务上的表现可以从一个方面间接地评价该模型。实验的结果如下表
在这里插入图片描述
可以看出,跟DINA、IRT、MIRT、PMF这些模型相比较,在Accuracy(准确度),RMSE(均方根误差),AUC(曲线下面积)三个评估指标中,NeuralCD模型在两个数据集中取得了较大的提升。

模型可解释性

我们希望学生的诊断结果能够符合直觉上的预期:若学生 a答对了包含知识点 k 的试题 e ,而学生 b没有答对,那么学生 a 在知识点k 上的掌握程度(Fs)应该更有可能比b 的掌握程度(Fs)大。为此,我们使用DOA来衡量这一解释性(DOA越高越符合预期):
在这里插入图片描述
Z为归一化项,Faks代表学生a对知识概念k的熟练程度,如果x>y,则δ(x,y)=1,否则为0;
Ijk=1表示练习j包含知识概念k,否则为0;J(j,a,b)=1,学生a和b都做了练习j,否则为0;
最后我们对所有知识概念的DOA(K)进行平均,以评估诊断结果的质量(即模型获得的知识熟练程度)。
计算模型诊断结果中平均每个知识点的DOA值,各个模型的结果如下图:
在这里插入图片描述

  • 左边图代表在基准模型上的诊断结果,可以看出,NeuralCDM和NeuralCDM+的DOA都高于所有基线,“一骑绝尘”,这证明了他们所诊断的知识水平是合理的。
  • 右边图是对学生的诊断情况,显示了关于五个知识概念的三个练习的Q矩阵以及学生对这些练习的反应。下面的小图展示了他对练习的知识概念和知识难点的熟练程度。从图中我们可以看出,当学生的熟练程度满足练习的要求时,他更有可能做出正确的反应。例如,练习3要求掌握“集合运算”,相应的难度为0.47。学生对“集合运算”的熟练程度是0.79,比要求的要高,所以他答对了。

这个诊断结果是符合常识认知的。

3.6 Conclusion

提出了一种适用于学生认知诊断的神经认知诊断框架–NeuralCD框架。首先讨论了框架中必要的学生和练习因素,并在框架上设置了单调性假设,以确保框架的可解释性。然后,我们在该框架下实现了一个具体的模型NeuralCDM来验证其可行性,并通过结合练习文本来提炼Q-矩阵来进一步扩展NeuralCDM。在真实数据集上的扩展实验结果表明了NeuralCD模型的有效性。

论文的NeuralCDM代码已公开至https://github.com/bigdata-ustc/NeuralCD
同时也感谢https://zhuanlan.zhihu.com/p/102024574 这篇文章帮助理解,这篇博客有些内容还是取自这里面,大家如果有兴趣可以看一看这篇文章。

希望与大家一起进步,加油共勉!

  • 16
    点赞
  • 79
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

研行笔录

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值