Graph-based Knowledge Tracing: Modeling Student Proficiency Using Graph Neural Network
1. 研究背景与目标
- 知识追踪(Knowledge Tracing):预测学生在学习过程中的表现(如答题正确率),以个性化推荐学习内容。
- 问题:传统方法(如DKT)使用循环神经网络(RNN),但未考虑知识点之间的依赖关系(如数学中的“解二次方程”依赖“解线性方程”)。
- 解决方案:用**图神经网络(GNN)**建模知识点间的图结构,提升预测性能和可解释性。
2. 核心方法:GKT(基于图的知识追踪)
2.1 总体流程
- 聚合(Aggregate):结合当前回答与知识点特征。
- 更新(Update):根据图结构更新知识点状态。
- 预测(Predict):输出下一时刻各知识点的正确概率。
2.2 关键公式解析
(1)聚合步骤
hk′t={[hkt,xtEx](k=i)[hkt,Ee(k)](k≠i) \mathbf{h}_{k}^{'t} = \begin{cases} \left[\mathbf{h}_{k}^{t}, \mathbf{x}^{t}\mathbf{E}_{\mathbf{x}}\right] & (k=i) \\ \left[\mathbf{h}_{k}^{t}, \mathbf{E}_{e}(k)\right] & (k\neq i) \end{cases}hk′t={[hkt,xtEx][hkt,Ee(k)](k=i)(k=i)
- 含义:当学生回答知识点iii时:
- 对知识点iii:将其隐藏状态hit\mathbf{h}_i^thit与输入嵌入xtEx\mathbf{x}^t\mathbf{E_x}xtEx拼接。
- 对其他知识点k≠ik \neq ik=i:仅使用自身的嵌入Ee(k)\mathbf{E}_e(k)Ee(k)。
- 作用:将当前回答的信息(如正确与否)与知识点固有特征结合。
(2)更新步骤
KaTeX parse error: Double superscript at position 74: …thbf{h}^{'}_{i}^̲{t}) & (k=i) \\…
- fselff_{\text{self}}fself:处理当前知识点iii的更新(如通过多层感知机MLP)。
- fneighborf_{\text{neighbor}}fneighbor:定义相邻知识点间的信息传播方式(关键创新点)。
- 示例:若使用统计方法(如转移概率图),则Ai,j\mathbf{A}_{i,j}Ai,j表示知识点iii到jjj的转移概率。
- 学习方法:如多头注意力(MHA)或变分自编码器(VAE)动态学习边权重。
(3)预测步骤
ykt=σ(Wouthkt+1+bk) \mathbf{y}_{k}^{t} = \sigma(\mathbf{W}_{\text{out}}\mathbf{h}_{k}^{t+1} + \mathbf{b}_{k}) ykt=σ(Wouthkt+1+bk)
- σ\sigmaσ:Sigmoid函数,将输出映射为概率(0~1)。
- Wout\mathbf{W}_{\text{out}}Wout:共享权重矩阵,所有知识点共用。
- 输出:每个知识点kkk在下一时刻的正确概率。
2.3 隐式图结构的实现
- 统计方法:
- 密集图(Dense):所有知识点互相连接(边权重均匀)。
- 转移图(Transition):根据知识点间的答题顺序统计转移概率。
- DKT图:基于DKT模型的预测概率生成边权重。
- 学习方法:
- PAM:直接优化邻接矩阵A\mathbf{A}A。
- MHA:用多头注意力动态计算边权重。
- VAE:用变分自编码器学习稀疏的边类型分布。
3. 实验结果
3.1 性能对比(AUC分数)
| 方法 | ASSISTments | KDDCup |
|---|---|---|
| DKT (基线) | 0.709 | 0.751 |
| GKT (Transition) | 0.723 | 0.769 |
| GKT (VAE) | 0.722 | 0.769 |
- 结论:GKT显著优于传统方法,且学习方法(VAE/MHA)与统计方法(Transition)效果接近。
3.2 可解释性分析
- GKT:仅更新与当前知识点相关的节点(如图中绿色/红色区域)。
- DKT:无差别更新所有知识点,难以追踪具体依赖关系。
4. 未来方向
- 引入图约束:如限制边的方向性(因果依赖)。
- 结合全局特征:在GKT中加入类似DKT的全局隐藏状态。
- 多跳传播:允许信息跨多跳节点传播(如“解二次方程”依赖“移项”的间接关系)。
5. 总结
- 贡献:首次将GNN引入知识追踪,提升预测性能与可解释性。
- 意义:为个性化教育和课程设计提供更精准的工具。
论文隐式图结构实现详解
1. 统计方法(Statistics-based Approaches)
1.1 密集图(Dense Graph)
- 定义:假设所有知识点之间全连接,边权重均匀分配。
- 数学表达:
Ai,j={1∣V∣−1若 i≠j0若 i=j \mathbf{A}_{i,j} = \begin{cases} \frac{1}{|V|-1} & \text{若 } i \neq j \\ 0 & \text{若 } i = j \end{cases} Ai,j={∣V∣−110若 i=j若 i=j - 例子:假设共有3个知识点(A、B、C),则每个知识点连接到其他两个,权重为0.5(如A→B和A→C的权重均为0.5)。
- 优缺点:
- 优点:简单,无需额外数据。
- 缺点:无法区分知识点间的真实依赖关系,可能引入噪声。
1.2 转移图(Transition Graph)
- 定义:根据学生答题顺序的转移频率计算边权重。
- 数学表达:
Ai,j=ni,j∑kni,k(i≠j) \mathbf{A}_{i,j} = \frac{n_{i,j}}{\sum_{k} n_{i,k}} \quad (i \neq j) Ai,j=∑kni,kni,j(i=j)- (n_{i,j}):知识点i之后立即回答知识点j的次数。
- 例子:若学生答题顺序为A→B→A→C,则:
- (n_{A,B}=1), (n_{A,C}=1), 所以A→B和A→C的权重均为0.5。
- 优缺点:
- 优点:反映实际答题顺序的统计规律。
- 缺点:可能忽略长距离依赖(如A→C可能通过B间接影响)。
1.3 DKT图(DKT Graph)
- 定义:基于预训练的DKT模型预测的条件概率生成边权重。
- 步骤:
- 用DKT模型预测学生答对知识点j的概率,假设其受知识点i的影响。
- 若知识点i的存在显著提高j的预测概率,则赋予边i→j较高权重。
- 例子:若DKT预测“解二次方程(B)”的正确率在“解线性方程(A)”答对后显著提升,则A→B的边权重较高。
- 优缺点:
- 优点:利用DKT的预测能力捕捉隐性依赖。
- 缺点:依赖DKT模型的准确性,计算成本高。
2. 学习方法(Learning-based Approaches)
2.1 参数化邻接矩阵(Parametric Adjacency Matrix, PAM)
- 定义:将邻接矩阵(\mathbf{A})作为可学习参数直接优化。
- 约束:通常限制(\mathbf{A})为非负且稀疏(如使用L1正则化)。
- 例子:假设共有3个知识点,初始(\mathbf{A})为全连接,模型通过训练自动学习A→B权重0.8,A→C权重0.1,其余接近0。
- 优缺点:
- 优点:灵活,无需预定义规则。
- 缺点:参数量大((N \times N)),可能过拟合。
2.2 多头注意力(Multi-Head Attention, MHA)
- 定义:用注意力机制动态计算知识点间的边权重。
- 数学表达:
fneighbor(hi′,hj′)=1K∑k=1Kαijkfk([hi′,hj′]) f_{\text{neighbor}}(\mathbf{h}'_i, \mathbf{h}'_j) = \frac{1}{K} \sum_{k=1}^K \alpha_{ij}^k f_k([\mathbf{h}'_i, \mathbf{h}'_j]) fneighbor(hi′,hj′)=K1k=1∑Kαijkfk([hi′,hj′])
-αijk\alpha_{ij}^kαijk:第k个注意力头计算的i到j的权重。 - 例子:假设注意力头1关注“先决关系”,头2关注“同步掌握关系”:
- 对知识点A(解线性方程)和B(解二次方程),头1可能赋予A→B高权重(因B依赖A)。
- 对知识点B和C(因式分解),头2可能赋予高权重(因需同时掌握)。
- 优缺点:
- 优点:捕捉复杂多类型关系。
- 缺点:计算复杂度高(需计算所有节点对)。
2.3 变分自编码器(Variational Autoencoder, VAE)
- 定义:用VAE隐式学习稀疏的边类型分布。
- 关键步骤:
- 编码器:根据节点特征推断潜在边类型分布(q(z_{ij} | \mathbf{h}_i, \mathbf{h}_j))。
- 采样:用Gumbel-Softmax生成离散边类型(z_{ij})。
- 解码器:根据边类型计算信息传播权重。
- 例子:模型可能学到:
- 边类型1:强依赖(如A→B)。
- 边类型2:弱关联(如B→C)。
- 边类型3:无关联(权重接近0,自动剪枝)。
- 优缺点:
- 优点:自动学习稀疏结构,避免全连接噪声。
- 缺点:训练不稳定,需调参。
3. 方法对比与典型场景
| 方法 | 适用场景 | 举例说明 |
|---|---|---|
| 密集图 | 知识点间关系均匀或未知 | 初学阶段,无先验知识时使用。 |
| 转移图 | 答题顺序反映依赖关系 | 英语学习中“单词→语法→阅读”的顺序。 |
| DKT图 | 需利用历史预测模型增强关系 | 已有DKT模型,希望进一步提升性能。 |
| PAM | 小规模知识点,关系复杂且多样 | 编程知识点(如循环→函数→类)。 |
| MHA | 多类型关系需动态捕捉 | 数学中“几何证明依赖代数计算”。 |
| VAE | 需自动发现稀疏关键依赖 | 识别化学中的核心反应路径。 |
4. 隐式图结构的意义
- 解决“先验知识缺失”:无需人工标注依赖关系,降低标注成本。
- 动态适应学生行为:例如,VAE可自动发现某些学生群体特有的学习路径。
- 提升可解释性:学习到的图结构可直观展示知识点间的依赖(如医学课程中“解剖学→生理学→病理学”的层级关系)。
3544

被折叠的 条评论
为什么被折叠?



