Structure-based Knowledge Tracing: An Influence Propagation View

本文链接：https://blog.csdn.net/Highlight_Jin/article/details/119460458

Structure-based Knowledge Tracing: An Influence Propagation View

Abstract

知识追踪（KT）是在线教育中一项基本但具有挑战性的任务，它追踪学习者不断变化的知识状态。这一领域已经引起了很多关注，并提出了一些工作，如贝叶斯和深度知识追踪。最近的工作探讨了概念间关系的价值，并提议将知识结构引入到知识追踪任务中。然而，概念之间的传播影响，已经被教育理论证明是人类学习的一个关键因素，仍然没有得到充分的探索。在本文中，我们提出了一个新的框架，称为基于结构的知识追踪（SKT），它利用知识结构中的多种关系来模拟概念之间的影响传播。在SKT框架中，我们同时考虑了对行使序列的时间影响和对知识结构的空间影响。我们利用两种新的表述方式来模拟对具有多种关系的知识结构的影响传播。对于诸如相似性关系这样的无向关系，我们采用了同步传播的方法，即影响在相邻概念之间双向传播。对于有向关系，如先决条件关系，采用部分传播法，即影响只能从前人向后人单向传播。同时，我们采用门控函数在时间上和空间上更新概念的状态。我们通过大量实验证明了SKT的有效性和可解释性。

1 Introduction

传统的知识追踪模型[7], [25], [41]主要利用时间信息（即学习者在练习中的连续表现）。例如，贝叶斯知识追踪（BKT）[7]采用隐马尔科夫模型来分别追踪每个概念的演变知识状态，而深度知识追踪（DKT）[25]则使用递归神经网络来共同模拟所有概念的状态。最近，越来越多的工作[23]，[34]，[35]已经注意到知识结构的价值，它包含丰富的领域知识。Chen等人[4]利用知识结构中的前提关系将知识追踪重新表述为一个约束问题，Nakagawa等人[23]利用同构图知识结构上的图神经网络来增强知识追踪。虽然利用知识结构有了明显的改善，但以前的工作忽略了概念之间的传播影响。

根据教育理论之一，知识转移[8]，[31]，[36]，当学习者学习一个概念时，不仅是当前学习概念的熟练程度，而且一些相关的概念也会发生变化。如图1中间部分所示，一个学习者依次对概念B、D、…、C、D进行了几次练习，学习者给出的答案的正确性（正确或错误）显示在概念下。在每个时间步骤中的概念和答案的正确性被称为练习-表现对。底部显示的是知识结构。顶点是教学概念，由多重关系连接。多重关系不仅包括有向关系，也包括无向关系。在不失一般性的情况下，我们在这里用两个典型的关系作为一个玩具例子。在图1中，黑色的有向线代表先决条件关系1，蓝色的无向线代表相似关系2。在最开始的时候，当学习者完成了对概念B的学习后，她对概念B的熟练度会增加，这可以从图1顶部的雷达图中看出。同时，由多种关系连接的概念的熟练度也受到影响。例如，对概念D（B的继承者）和概念A（与B相似的概念）的熟练程度也会增加。对概念B的学习影响了对概念A、D的熟练程度，其原因是知识可以在概念之间转移。换句话说，学习的影响可以沿着知识结构中的多种关系传播。因此，在利用知识结构进行知识追踪时，必须考虑影响的传播。

然而，沿着这条路线有两个主要挑战。首先，每个概念的知识状态是由两类影响决定的。一种是来自练习序列的时间效应，另一种是来自知识结构的空间效应。如图1所示，在每一个时间步骤中，当学习者进行练习时，学习行为会对学习概念产生时间效应，从而改变概念的状态（例如，概念B的状态因第一步的学习而改变）；然后，学习概念的状态变化会进一步通过不同的关系影响其在知识结构中的相邻和继承者，这被称为空间效应。因此，有两个维度的学习效应需要我们同时建模。如何对时间和空间效应进行联合建模是一个具有挑战性的问题。其次，要对具有多种关系的知识结构进行空间效应建模并不容易。因为影响可以沿着不同的关系传播，一个关键问题是要考虑不同类型的关系上不同的影响传播方式。如图1所示，知识结构中存在多种关系，包括有向关系和无向关系。因此，当我们对空间效应进行建模时，需要分别考虑不同类型关系上的影响传播。

为了解决上述挑战，我们提出了一个新的框架，称为基于结构的知识追踪（SKT），它可以同时对时间和空间效应进行建模。
具体来说，在每个时间步骤中，我们首先从练习-表现对中提取时间效应，并通过一个门控函数更新练习的概念状态。然后，为了建立由时间效应引起的知识结构中的影响传播模型，我们应用同步和部分传播方法，分别描述知识结构中的无向和有向关系。最后，对于那些受影响的概念，将使用上述相同的门控函数，根据传播到它们的影响来更新状态。通过这种方式，我们对知识结构中的影响传播进行建模，并进一步对时间和空间效应进行联合建模。在真实世界的数据集上进行的大量实验表明，SKT不仅明显优于几个基线，而且还有效地提供了可解释的见解，以了解学习者不断变化的状态。

2 Related work

一般来说，本研究的相关工作可归为以下两类。

A. 知识追踪

知识追踪是一项对学习者的知识状态进行建模的工作，这样我们就能够准确地预测学习者在未来练习中的表现[13]。经典的知识追踪模型之一是贝叶斯知识追踪（BKT）[7]。基于BKT的方法将学习者的知识在隐马尔可夫模型（HMM）中建模为一组二元变量，代表学习者是否掌握了某项技能（例如，0表示没有，而1表示掌握）。由于深度学习模型在模式识别和自然语言处理等一系列领域的表现优于传统模型，Piech等人[25]使用RNN来模拟对概念不断发展的熟练程度，并提出了深度知识追踪（DKT）模型。与BKT使用二进制变量来表示学习者的知识状态不同，通过使用循环神经网络（RNN），DKT以高维和连续的表示方式对这种状态进行建模。另一种深度学习模型是深度关键值记忆网络（DKVMN）[41]。DKVMN促进了一个静态关键记忆矩阵和一个动态值记忆矩阵。关键记忆矩阵存储知识概念，价值记忆矩阵存储和更新相应概念的掌握程度。DKVMN能够自动学习输入练习和基础概念之间的相关性。DKT和DKVMN鼓励越来越多的基于深度学习的知识追踪模型的研究[22], [39]。

最近，越来越多的工作注意到将知识结构引入到知识追踪中。
Chen等人[4]和Wang等人[35]分别提出了一个基于前提条件和相似性关系的正则化项。Wang等人[34]使用分层知识结构，提出了深度分层知识追踪（DHKT）模型，而Nakagawa等人[23]将图形神经网络（GNN）引入到具有图状知识结构的知识追踪中。然而，以前的工作忽略了学习过程中概念之间的影响，或者只能处理具有单一类型关系的知识结构，这在某种程度上限制了它们的性能。

B. 影响传播

一些模型[14], [15], [33]被提供来描述影响传播的动态。这些模型定义了信息传播的随机过程。因此，它们被称为随机扩散模型。其中，独立级联模型（IC）和线性阈值模型（LT）已被广泛使用和研究[14]，[20]。在这两个模型中，影响扩散被简单地定义为激活节点的预期数量。最近，一些作者提出将神经网络引入影响传播模型[1], [17], [37]。Atwood等人[1]提出了扩散卷积神经网络，从图结构的数据中学习基于扩散的表征，并作为节点分类的有效基础。Li等人[17]提出了关于交通预测的扩散卷积递归神经网络（DCRNN），以纳入交通流的空间和时间依赖性。这些方法接收的是具有单一关系类型的图，这使得它难以直接应用于我们的任务。

3 Problem formulation

在正式介绍SKT之前，我们先给出必要的定义如下。

A. 知识结构

教育理论强调知识结构的重要性[24]，[26]，它包含许多关系，如前提条件[4]，[28]和相似性[35]。前提条件表示学习项目之间存在的层次结构。如图1的底图所示，从一个顶点到另一个顶点的有向箭头意味着前者是后者的先决条件，例如，100以内的数是一位数乘法的先决条件。相似性是另一个被广泛研究的关系。如图1所示，由蓝色无向边（即相似性）连接的顶点涉及相同的主题或领域，并可能在某些知识上有重叠。
定义1：（知识结构）在本文中，具有多重关系的知识结构被表示为图G(V,E)，其中V = {v1, v2, …, vN}，每个顶点v对应一个概念。有多个关系E={Er，r=1，…，R}，其中r代表某种类型的关系（如前提条件和相似性），Er代表r类型的所有关系，R是关系类型的数量。

B. 问题陈述

知识追踪任务由两部分组成。(1)通过学习者的表现序列对其知识状态进行建模；(2)预测学习者在未来练习中的表现。知识追踪任务通常被表述为一个有监督的序列预测问题。通过在知识追踪问题中引入类似图的知识结构G，我们将这个知识追踪问题表述为：
定义2：（带知识结构的知识追踪）给定学习者过去的练习序列，即X={xt，t=1，…，T}，其中xt=（et，pt）。pt∈{0，1}是学习者在步骤t的练习et上的答案的正确性（即0表示学习者给出错误的答案，1表示给出正确的答案。每个概念对应于知识结构G(V,E)中的一个顶点v。我们的目标是对学习者在所有N个概念（即G中的顶点V）上的知识状态Y={y1, y2, …, yT }进行建模，并预测当给定学习者过去的练习序列x1,…,t和知识结构G时，学习者正确回答新练习et+1的概率，即P(pt+1 = 1|et+1, x1,…, t, G)

4 Structure-based Knowledge Tracing

本节首先简要介绍了我们的框架。然后详细介绍SKT的组成部分。

A. 概述

SKT是一个顺序模型，它利用了知识的图形结构性质，并应用两种不同的传播模型来追踪不同关系的影响。我们在图2中介绍了SKT的结构。在每个时间步骤t，一个dh维度的向量hti被用来表示概念i上的隐藏状态。学习者在所有概念上的隐藏状态向量构成了隐藏状态H，如图2左上部分所示。一个级联影响传播（CIP）单元被用来联合模拟对概念的时间和空间影响。在每个时间步骤t，CIP单元首先从练习-表现对xt=（et，pt）中提取对当前练习概念的时间影响。之后，在对概念i的时间影响之后，其他一些概念也会受到空间影响。为了模拟对不同类型关系的空间影响，我们提出两种不同的传播方法：对有向关系的部分传播方法和对无向关系的同步传播方法。然后采用一个门控函数来更新基于时间和空间效应的隐藏状态。为了预测学习者是否会正确回答一个新的练习，一个地图函数fout(hti)被用来根据概念i上的隐藏状态推断出正确回答的概率。以下段落详细解释了这些过程。

B. 时间效应的建模

根据关于概念学习的教育研究[11]和以前在KT[7], [25], [41]方面的工作，当学习者练习时，会产生学习效应并作用于学习概念。如图2所示，在每个时间步骤t，一个时间性的学习效果Et T作用于概念i，它将概念i上的隐藏状态从htito ht,T i改变。
对当前学习概念的时间效应是基于练习-性能对xt = {et, pt}暗示的，其中et测试概念i。与以前的工作[25], [38], [40]类似，用性能向量xt∈{0, 1}2N来表示练习-性能对xt：如果j = 2- et + pt，xt j = 1，否则0。
(1)然后我们嵌入性能向量来制定时间效应向量Et T：Et T = xtEr，(2)其中Er∈R2N×de是一个嵌入性能向量xt的矩阵。然后，时间效应向量EtT被输入一个门控函数G，以更新概念i的状态：ht,T i = G(Et T , hti ), (3) 其中G(-, -)是门控递归单元（GRU）[5]3。
接下来，后续部分将详细阐述在概念i受到时间影响后，其他概念在空间上如何受到影响。

C. 空间效应的建模

一旦概念i的状态被改变，影响将沿着多重关系传播到相关概念。如图2左下部分所示，概念j的隐藏状态被来自概念i的传播影响所改变。以下部分将彻底描述两种不同的影响传播方法：部分传播和同步传播。

(1）Partial Propagation
对于那些直接关系，如先决条件关系[4]和补救关系[28]，我们采用部分传播的方法。在直接关系中，先决条件关系是研究得最多的一种。以前的工作[4]，[23]已经建立了前任概念和后任概念的熟练程度的排序关系，其中前者的熟练程度预计会高于后者。这个结论可以从知识转移的角度进一步解释[29]：影响是单向传播的，只从前人传到后人。因此，我们提出了部分传播的方法，即根据前任概念的状态变化产生影响，并将影响沿着有向关系传播给后任概念。
具体来说，如图2所示，在概念i上的隐藏状态从hti变为ht,T i的时间效应之后，概念i上的状态变化将导致影响，并沿着有向关系传播到其继承者。partr ij = fpart(ht,T i , hti ,Ec(j)),∀j ∈Sr(i), fpart(ht,T i , hti ,Ec(j)) = relu(Wrp Pr ij + br p), Pr ij = (ht,T i - hti ) ⊕ Ec(j) 。(4) Sr(i)是一个继任函数，它返回i在r上的所有继任概念。Wrp和br p是学习参数。⊕是将两个向量串联成一个长向量的操作。
除了概念i上的状态变化外，我们还包括一个向量Ec(j)来表示概念特征。Ec∈RN×dc是一个嵌入概念索引的矩阵，其中N是概念的数量，dc是嵌入的大小，Ec(j)代表Ec的第j行。

(2) Synchronization Propagation:
以前关于无定向关系的工作，如相似性关系[35]和协作关系[12]，得到了一些有趣的结论。Wang等人[35]发现，在相似性关系中，某个概念的熟练度的提升带来了对其相邻概念的提升，反之亦然，这导致了相邻概念的熟练度相似。这个想法可以根据知识转移的理论[27]进一步解释，影响是在相邻概念之间双向传播的。受这些观察的启发，我们提出了一种同步传播的方法来模拟双向影响的传播。与部分传播类似，在概念i上的隐藏状态从hti变为ht,T i的时间效应之后，i上的状态变化将导致影响，并沿着无定向关系传播到其后续者。需要注意的是，部分传播是单向的，传播的影响只由概念i的变化决定，而在同步传播中，影响是由i和它的邻居的状态决定的，将被双向传播。具体来说，我们用两个公式来分别模拟从概念i传播到其邻居的影响和从邻居传播到概念i的影响。

我们首先使用以下公式来模拟从概念i传播到其邻居的影响：syncr ij = fsync(ht,T i , ht j ,Ec(j)), ∀j ∈ Nr(i), fsync(ht,T i , ht j ,Ec(j)) = relu(Wr sSr ij + br s) , Sr ij = ht, T i ⊕ ht j ⊕ Ec(j) 。(5) Nr(i)是一个邻域函数，它返回i在r上的所有邻域概念。Wr s和br s是学习的参数。Ec是与第四节C1相同的嵌入矩阵，Ec(j)代表概念特征。

然后，我们对从概念i的邻居传播到自身的影响进行建模：syncri = relu(Wr ssRri + br ss), Rri = (ht,T i + j∈Nr(i) ht j) ⊕ Ec(i),其中Nr(i)是与公式5相同的邻域函数。Wr ss和br ss是学习参数。

总之，同步传播在两个方面与部分传播不同。(1)在部分传播中，影响只由概念i的变化决定，而在同步传播中，影响是由i和其邻居的状态决定的；(2)在同步传播中，不仅邻居，而且概念i也受到影响，而在部分传播中，只有继承者受到影响。这些差异使得同步传播是双向的，而部分传播是单向的。

D. Update of Knowledge State

接下来，对于那些受同步传播或部分传播影响的概念，该模型首先汇总来自同步传播和部分传播的影响，然后根据汇总的影响更新隐藏状态。对于每个受影响的概念j，聚合影响Ij的计算方法是：。Aj = r syncrj j = i, α - r syncr ij + (1 - α) - r partr ij j = i, (7) Ij = relu(WIAj + bI ), (8) 其中 WI , bI 是学习的权重矩阵和偏差，α是一个超参数。然后我们用下面的公式来更新每个受影响的概念j上的状态： ht+1 j = G(Ij , ht j), (9)
其中G(-, -)是一个GRU门。影响力传播的完整过程见算法1。

E. Final Prediction

最后，对于每个概念i，模型将输出学习者在下一个时间步骤t正确回答相应练习的预测概率：ˆpti = fout(hti ), fout(hti ) = σ(Wohti + bo), (10) 其中Wo是学习的权重矩阵，bo是学习的偏置项。在时间步骤t，学习者的知识状态被计算为：yt = {ˆpt 1, …, ˆpt N }。
学习者正确回答一个新练习的概率为et。P(pt = 1|et, x1,…,t-1,G) = ˆpt et 。(11)

F. Loss Function and Model Training

在训练阶段，SKT的参数是通过最小化ˆpt和真实标签pt之间的标准交叉熵损失共同学习的。L = - t (ptlogˆpt + (1 - pt)log(1 - ˆpt))。(12) SKT是完全可微的，可以用随机梯度下降法有效地训练。框架设置和训练细节分别在第五节B2和第五节B3中介绍。

5 Experiments

在本节中，我们首先介绍了数据集。然后，将SKT的性能与几个基线进行了比较。最后，我们展示了SKT的可解释性。

A. 数据集

我们使用两个真实世界的数据集，即由在线教育服务ASSISTments4提供的AaSSISTments2014-2015 "技能建设者 "数据集和从中国网络学习平台抓取的Junyi academy5 [3]。我们使用一定的条件对每个数据集进行预处理，预处理后的数据集见表一，其中ASSISTments2014-2015被缩写为ASSISTments，Junyi academy被缩写为Junyi。
1）Junyi
Junyi的数据集包括由专家标注的知识结构和学习者的数学练习成绩记录，其中一个学习者有几个练习序列。学习者日志中记录的每一个练习-表现对都包含了一个学习者在一个练习中的信息。下面是一个练习成绩序列的例子。{（代表数字，正确），（除4，错误），（条件语句2，错误），（条件语句2，错误）}）。与[39]类似，我们从练习日志中选择1000个最活跃的学习者来产生数据集。

Junyi academy 的知识结构包含两类关系：先决条件关系和相似性关系。它们都包含一些边，例如，在先决条件关系中，（一位数加法，两位数加法）代表顶点一位数加法和顶点两位数加法之间的联系，前者是后者的先决条件。在先决条件关系中，我们删除了一些循环，以保持图形是一个有向无环图（DAG）。由于相似性关系的原始数据格式是（概念1，概念2，相似性值）（例如，（写表情1，评估表情1，6.333）），其中1≤相似性值≤9。我们将阈值设置为5.0，以获得相似性边，即如果相似性值≥5.0，则概念1和概念2有一条相似性边。

此外，我们调查了学习者的练习序列，以验证概念间学习影响的存在。受Piech等人[25]和Nakagawa等人[23]的启发，我们使用以下公式来计算概念对（i，j）的正确性概率：Pij = nc(j|i) n(j|i) ，其中nc(j|i)是当概念j的邻居或前身i已经被正确回答时，在第一个时间步骤中被正确回答的次数，其中n(j|i)是概念j的回答次数。我们分别计算先决条件和相似性的影响因素，并将其记为Pp ij和Ps ij。如图3所示，与非条件正确性概率Pn j = nc(j) n(j)相比，我们可以看到，当邻居和前任已经被学习，回答概念j的正确性概率得到提升。从这个观察中，我们可以得出结论，有一些影响从一个概念传播到它的邻居或后继者。

(2) ASSISTments
我们使用Zhang等人提供的预处理过的数据集[41]6。由于数据集中没有明确提供知识图谱结构，受以前的工作[23]，[25]的启发，我们提供了一个构建图谱结构的实现。

正确图是一个计数矩阵，如果i=j，则Cij=cij；否则为0。这里，cij代表概念j被正确回答和紧随概念i被正确回答的次数。

正确的过渡图是一个有向图，表示为T。我们首先计算过渡概率矩阵˜T：Tij = Cij k Cik，如果i = j；否则，为0。这里，C是正确的图。Tij表示影响可以从概念i单向传播到概念j的概率。然后，我们通过Tij=1，如果˜Tij>阈值；否则为0来确定关系，其中阈值被设定为˜T的平均值0.02。循环被删除以保持图为DAG。

正确的并发图是一个无向图，表示为O。我们首先计算正确的并发矩阵：˜Cij = Cij+Cji |Cij-Cji|+ ，其中=0.1是用来防止零分。
然后，我们用最大-最小缩放法来缩放˜C，得到˜O： ˜Oij = ˜Cij-min( ˜C) max( ˜C)-min( ˜C) 。 ˜Oij是影响力能在概念i和j之间双向传播的概率。最后，我们通过Oij = 1，如果˜O ij>阈值；否则为0，其中阈值设置为˜O 0.02的平均值来确定关系。

B. Experimental Setup

数据分区。对于每个数据集，我们将学习者分为训练：测试=8：2。我们使用90%的学习者训练数据来训练SKT，并使用automl工具nni7来应用TPE算法[2]来调整剩余10%数据的超参数。

2）框架设置。我们设定嵌入矩阵的大小de和dc为64，隐藏状态的大小dh为64。
在ASSISTment中，对正确的并发图采用同步传播法，对正确的过渡图采用部分传播法。在Junyi中，我们对相似关系采用同步传播法，对前提关系采用部分传播法。
在ASSSISTment和Junyi中，我们分别将方程（7）中的α设定为0.55和0.45。关于α的讨论将在第V-G节介绍。方程10中，从隐藏向量到输出向量的丢弃[30]的概率为0.5。

训练细节。我们用Xavier初始化[9]来初始化所有网络的参数，其目的是保持所有层中梯度的规模大致相同。
初始化用[-c, c]范围内的随机值填充权重，其中c=3 nin+nout。 nin是输入权重的神经元数量，nout是结果被输入的神经元数量。我们使用亚当算法[16]进行优化。初始学习率被设置为0.001。
此外，我们设置迷你批次为16，最大训练历时数为30。所有的模型都是在一台Linux服务器上训练的，该服务器有两个2.30GHz的Intel® Xeon® Gold 5218 CPU和一个Tesla V100-SXM2-32GB GPU。

C. Baseline Approaches

1）BKT：BKT9[7]是一种HMMs。基于特定概念的练习序列，BKT使用HMM将学习者的潜在知识状态建模为一组二进制变量。尽管BKT模型假设已掌握的知识不会被遗忘，但仍然考虑了猜测和滑落等因素。

(2) DKT：DKT[25]将循环神经网络模型应用于练习成绩序列，以同时估计学习者对每个概念（即知识状态）的熟练程度。DKT获取单次成绩向量，并输出一个代表学习者对所有概念的熟练程度的向量，其元素都在0和1之间。

3）DKT+。DKT+10[40]是DKT的一个扩展变量，旨在解决DKT模型中的两个主要问题。
一个是DKT模型不能重建观察到的输入，另一个是DKT模型在不同时间步长的预测性能不一致。通过引入三个正则化项，作者重新定义了原始DKT模型的损失函数，以提高预测的一致性。具体来说，DKT+中的损失函数是L = L+ λrr+λw1w1+λw2w2 2，其中λr用于重建输入，λw1和λw2用于平滑预测中的过渡。
在实验中，我们设定λr = 0.1，λw1 = 0.003，λw2 = 3.0。

(4) DKVMN：DKVMN[41]是知识追踪的另一个经典模型。DKVMN有能力利用基础概念之间的关系，直接输出学习者对每个概念的熟练程度。DKVMN有一个名为key的静态矩阵，用于存储知识概念，另一个名为value的动态矩阵，用于存储和更新相应概念的掌握程度。在ASSISTments中，对于键的记忆，我们设定记忆槽的大小为20，记忆状态维度为50。此外，对于价值记忆，我们设定记忆槽大小为20，记忆状态维度为200。在 "骏逸 "中，对于关键内存，我们将内存插槽大小设置为40，内存状态维度设置为200。此外，对于值存储器，我们将存储槽的大小设置为40，存储状态维度设置为200。

5）GKT：GKT[23]是一种基于GNN的知识追踪方法，它只采用前提关系来构建知识结构。在每个时间步骤中，GKT将聚合邻居的状态来推断新的状态，不仅更新当前正在学习的东西的状态，还更新其邻居的状态。所有隐藏向量和嵌入矩阵的大小被设定为32。

为了更好地说明问题，我们在表二中总结了这些模型的特点。

D. Evaluation Metrics

与以前的工作[25], [41]一样，我们从分类的角度来评估模型。在评估过程中，学习者的练习结果被定义为一个二进制值，其中0代表错误的答案为负样本，1代表正确答案为正样本。因此，两个流行的分类指标，ROC曲线下的面积（AUC）和F1分数，被用来衡量模型的性能。AUC分数为0.5表示模型的性能仅仅和随机猜测一样好，AUC越高表示性能越好。F1分数可以解释为精度和召回率的加权平均值，其中F1分数在1时达到最佳值，在0时达到最差值。

E. Experimental Results

性能比较。我们首先比较SKT与基线模型的整体性能。两个数据集的性能指标结果见表三。我们可以发现，我们提出的SKT在所有数据集的AUC和F1方面都取得了比其他基线更好的性能。在基线中，我们注意到DKVMN和GKT是最好的两个模型，它们要么对概念的关系进行建模，要么明确地利用现有知识结构。这一观察表明，利用概念关系（即知识结构），不管是显性的还是隐性的，确实为估计学习者的知识状态提供了额外的有用信息。此外，在显著的推广下，我们的SKT通过以下方式实现了最佳性能：（1）基于影响传播的时间和空间效应建模；（2）分别沿不同关系的传播方式建模。这表明同时结合时间信息和空间信息以及考虑知识结构之间的多种关系的重要性。
这些证据表明，在知识追踪过程中考虑知识的转移，并以适当的方式在知识结构的帮助下对影响传播进行建模，可以显著提高模型的有效性。

F. Ablation Study

在这一部分，我们将我们的模型与它的变体进行了比较。
SKT TE, SKT Part和SKT Sync是我们模型的三个变体。SKT TE只对时间效应进行建模。SKT Part和SKT Sync分别对部分传播或同步传播进行建模。从表四中，我们可以看到两个变体（即SKT Part和SKT Sync）对空间效应的建模比只对时间效应建模的SKT TE有更好的表现。这一现象表明，对知识结构中传播的影响进行建模很重要。同时，我们还观察到，SKT将两种传播方法结合在一起，有明显的促进作用。这表明，当我们对影响力传播进行建模时，考虑不同关系的传播方式是至关重要的。

G. Parameter Sensitivity

在SKT中，权衡参数α起着至关重要的作用，它平衡了公式（7）中相似性和先决条件的不同影响的贡献。当α较小时，影响倾向于优先考虑来自先决条件关系的影响。反之，当α较大时，模型被允许更多地关注来自相似性关系的影响。我们对不同的α进行了实验，其中α选自{0.05, 0.15, …, 0.95}。如图4所示，当α增加时，SKT的性能在开始时有所增加。然而，在所有三个数据集中，之后的性能会下降。这些结果表明，适当地平衡来自先决条件和相似性关系的影响对于实现更准确的预测性能至关重要。

H. Case Study

图5显示了一个学习者学习时不断变化的知识状态的例子，其中每一列代表对每个概念的熟练程度。从I区，我们可以明显地看到概念1（数线上的小数1）在时间步骤2和时间步骤3的熟练度的分歧，它在步骤3得到提升。同时，概念2（数线上的小数2）和概念3（数线）的熟练度也得到提升，其中概念2是具有前提关系的继承者，而概念3是具有相似关系的邻居。此外，从区域II中，在第16步，当学习者对概念2感到困惑时，它的熟练度就会下降。然而，概念1、2的前身的熟练度保持稳定。这一观察表明，在SKT中，沿着先决条件关系的影响只是单向传播的。从这些观察中，我们可以看出，由于能够追踪概念之间的影响传播，SKT能够为知识追踪提供一个更好的可解释的关于演变状态的见解。

I. Concept Clustering

SKT有能力将相关或相似的概念聚为同一组，这不仅可以帮助教育专家发现概念之间的关系，也有助于改进课程安排。继Piech等人[25]之后，我们利用T-SNE方法[21]将概念表示向量可视化。具体来说，我们首先通过Jij = y(j|i) k y(j|k)生成影响特征向量，其中y(j|i)是当练习i在第一时间步骤被正确回答时，SKT分配给练习j的平均正确性概率。然后，我们将向量维度减少到二维空间，然后得到概念聚类的图。如图6所示，相同颜色的概念是在同一个组。边缘的箭头大小表示连接强度，即余弦距离。为了更好地说明问题，我们选择了42个概念，并略去那些余弦距离小于0.5的边缘。从图6中我们可以看出，SKT将概念聚为五组，同一组中的概念与某一知识领域相当相关，并在该组旁边做了注释。基于聚类的结果，教育专家可以通过连接强度更好地发现关系。同时，学校的老师也可以安排学习者学习同一组中的概念，因为它们可能更有关联，并可能对彼此产生积极的转移。

6 Conclusion

在本文中，我们提出了一个新的知识追踪框架，即基于结构的知识追踪（SKT）。通过利用知识结构，SKT成功地建立了知识转移的模型。具体来说，通过同时考虑知识结构中的影响传播和学习者的练习成绩序列，SKT能够更精确地估计学习者的知识状态。我们在真实世界的数据集上进行了广泛的实验，结果表明SKT的有效性和可解释性。
对于未来的工作，我们将尝试在知识结构中涉及更多的关系和节点属性，如协作关系[12]。此外，我们将探索在知识追踪中利用更多的特征，如练习中的组件（如方程式，图像和文本）。同时，我们希望将我们的SKT应用于其他一些教育问题，如认知诊断评估[32]。