GKT论文技术实现

vvvdg

已于 2025-04-07 15:56:46 修改

阅读量862

点赞数 8

CC 4.0 BY-SA版权

文章标签：深度学习人工智能机器学习

于 2025-04-07 15:43:57 首次发布

本文链接：https://blog.csdn.net/vvvdg/article/details/146541943

Graph-based Knowledge Tracing: Modeling Student Proficiency Using Graph Neural Network

1. 研究背景与目标

知识追踪（Knowledge Tracing）：预测学生在学习过程中的表现（如答题正确率），以个性化推荐学习内容。
问题：传统方法（如DKT）使用循环神经网络（RNN），但未考虑知识点之间的依赖关系（如数学中的“解二次方程”依赖“解线性方程”）。
解决方案：用**图神经网络（GNN）**建模知识点间的图结构，提升预测性能和可解释性。

2. 核心方法：GKT（基于图的知识追踪）

2.1 总体流程

聚合（Aggregate）：结合当前回答与知识点特征。
更新（Update）：根据图结构更新知识点状态。
预测（Predict）：输出下一时刻各知识点的正确概率。

2.2 关键公式解析

（1）聚合步骤

$\mathbf{h}_{k}^{'t} = \begin{cases} \left[\mathbf{h}_{k}^{t}, \mathbf{x}^{t}\mathbf{E}_{\mathbf{x}}\right] & (k=i) \\ \left[\mathbf{h}_{k}^{t}, \mathbf{E}_{e}(k)\right] & (k\neq i) \end{cases}$

含义：当学生回答知识点 $i$ 时：
- 对知识点 $i$ ：将其隐藏状态 $hit\mathbf{h}_i^t$ 与输入嵌入 $xtEx\mathbf{x}^t\mathbf{E_x}$ 拼接。
- 对其他知识点 $\neq i$ ：仅使用自身的嵌入 $Ee(k)\mathbf{E}_e(k)$ 。
作用：将当前回答的信息（如正确与否）与知识点固有特征结合。

（2）更新步骤

$KaTeX parse error: Double superscript at position 74: …thbf{h}^{'}_{i}^̲{t}) & (k=i) \\…$

$fselff_{\text{self}}$ ：处理当前知识点 $i$ 的更新（如通过多层感知机MLP）。
$fneighborf_{\text{neighbor}}$ ：定义相邻知识点间的信息传播方式（关键创新点）。
- 示例：若使用统计方法（如转移概率图），则 $Ai,j\mathbf{A}_{i,j}$ 表示知识点 $i$ 到 $j$ 的转移概率。
- 学习方法：如多头注意力（MHA）或变分自编码器（VAE）动态学习边权重。

（3）预测步骤

$\mathbf{y}_{k}^{t} = \sigma(\mathbf{W}_{\text{out}}\mathbf{h}_{k}^{t+1} + \mathbf{b}_{k})$

$σ\sigma$ ：Sigmoid函数，将输出映射为概率（0~1）。
$Wout\mathbf{W}_{\text{out}}$ ：共享权重矩阵，所有知识点共用。
输出：每个知识点 $k$ 在下一时刻的正确概率。

2.3 隐式图结构的实现

统计方法：
- 密集图（Dense）：所有知识点互相连接（边权重均匀）。
- 转移图（Transition）：根据知识点间的答题顺序统计转移概率。
- DKT图：基于DKT模型的预测概率生成边权重。
学习方法：
- PAM：直接优化邻接矩阵 $A\mathbf{A}$ 。
- MHA：用多头注意力动态计算边权重。
- VAE：用变分自编码器学习稀疏的边类型分布。

3. 实验结果

3.1 性能对比（AUC分数）

方法	ASSISTments	KDDCup
DKT (基线)	0.709	0.751
GKT (Transition)	0.723	0.769
GKT (VAE)	0.722	0.769

结论：GKT显著优于传统方法，且学习方法（VAE/MHA）与统计方法（Transition）效果接近。

3.2 可解释性分析

GKT：仅更新与当前知识点相关的节点（如图中绿色/红色区域）。
DKT：无差别更新所有知识点，难以追踪具体依赖关系。

4. 未来方向

引入图约束：如限制边的方向性（因果依赖）。
结合全局特征：在GKT中加入类似DKT的全局隐藏状态。
多跳传播：允许信息跨多跳节点传播（如“解二次方程”依赖“移项”的间接关系）。

5. 总结

贡献：首次将GNN引入知识追踪，提升预测性能与可解释性。
意义：为个性化教育和课程设计提供更精准的工具。

论文隐式图结构实现详解

1. 统计方法（Statistics-based Approaches）

1.1 密集图（Dense Graph）

定义：假设所有知识点之间全连接，边权重均匀分配。
数学表达：
$\mathbf{A}_{i,j} = \begin{cases} \frac{1}{|V|-1} & \text{若 } i \neq j \\ 0 & \text{若 } i = j \end{cases}$
例子：假设共有3个知识点（A、B、C），则每个知识点连接到其他两个，权重为0.5（如A→B和A→C的权重均为0.5）。
优缺点：
- 优点：简单，无需额外数据。
- 缺点：无法区分知识点间的真实依赖关系，可能引入噪声。

1.2 转移图（Transition Graph）

定义：根据学生答题顺序的转移频率计算边权重。
数学表达：
$\mathbf{A}_{i,j} = \frac{n_{i,j}}{\sum_{k} n_{i,k}} \quad (i \neq j)$
- (n_{i,j})：知识点i之后立即回答知识点j的次数。
例子：若学生答题顺序为A→B→A→C，则：
- (n_{A,B}=1), (n_{A,C}=1), 所以A→B和A→C的权重均为0.5。
优缺点：
- 优点：反映实际答题顺序的统计规律。
- 缺点：可能忽略长距离依赖（如A→C可能通过B间接影响）。

1.3 DKT图（DKT Graph）

定义：基于预训练的DKT模型预测的条件概率生成边权重。
步骤：
1. 用DKT模型预测学生答对知识点j的概率，假设其受知识点i的影响。
2. 若知识点i的存在显著提高j的预测概率，则赋予边i→j较高权重。
例子：若DKT预测“解二次方程（B）”的正确率在“解线性方程（A）”答对后显著提升，则A→B的边权重较高。
优缺点：
- 优点：利用DKT的预测能力捕捉隐性依赖。
- 缺点：依赖DKT模型的准确性，计算成本高。

2. 学习方法（Learning-based Approaches）

2.1 参数化邻接矩阵（Parametric Adjacency Matrix, PAM）

定义：将邻接矩阵(\mathbf{A})作为可学习参数直接优化。
约束：通常限制(\mathbf{A})为非负且稀疏（如使用L1正则化）。
例子：假设共有3个知识点，初始(\mathbf{A})为全连接，模型通过训练自动学习A→B权重0.8，A→C权重0.1，其余接近0。
优缺点：
- 优点：灵活，无需预定义规则。
- 缺点：参数量大（(N \times N)），可能过拟合。

2.2 多头注意力（Multi-Head Attention, MHA）

定义：用注意力机制动态计算知识点间的边权重。
数学表达：
$f_{\text{neighbor}}(\mathbf{h}'_i, \mathbf{h}'_j) = \frac{1}{K} \sum_{k=1}^K \alpha_{ij}^k f_k([\mathbf{h}'_i, \mathbf{h}'_j])$
- $αijk\alpha_{ij}^k$ ：第k个注意力头计算的i到j的权重。
例子：假设注意力头1关注“先决关系”，头2关注“同步掌握关系”：
- 对知识点A（解线性方程）和B（解二次方程），头1可能赋予A→B高权重（因B依赖A）。
- 对知识点B和C（因式分解），头2可能赋予高权重（因需同时掌握）。
优缺点：
- 优点：捕捉复杂多类型关系。
- 缺点：计算复杂度高（需计算所有节点对）。

2.3 变分自编码器（Variational Autoencoder, VAE）

定义：用VAE隐式学习稀疏的边类型分布。
关键步骤：
1. 编码器：根据节点特征推断潜在边类型分布(q(z_{ij} | \mathbf{h}_i, \mathbf{h}_j))。
2. 采样：用Gumbel-Softmax生成离散边类型(z_{ij})。
3. 解码器：根据边类型计算信息传播权重。
例子：模型可能学到：
- 边类型1：强依赖（如A→B）。
- 边类型2：弱关联（如B→C）。
- 边类型3：无关联（权重接近0，自动剪枝）。
优缺点：
- 优点：自动学习稀疏结构，避免全连接噪声。
- 缺点：训练不稳定，需调参。

3. 方法对比与典型场景

方法	适用场景	举例说明
密集图	知识点间关系均匀或未知	初学阶段，无先验知识时使用。
转移图	答题顺序反映依赖关系	英语学习中“单词→语法→阅读”的顺序。
DKT图	需利用历史预测模型增强关系	已有DKT模型，希望进一步提升性能。
PAM	小规模知识点，关系复杂且多样	编程知识点（如循环→函数→类）。
MHA	多类型关系需动态捕捉	数学中“几何证明依赖代数计算”。
VAE	需自动发现稀疏关键依赖	识别化学中的核心反应路径。