论文阅读 GAKT

GAKT

论文:Z. Zhao, Z. Liu, B. Wang, L. Ouyang, C. Wang and Y. Ouyang, "Research on Deep Knowledge Tracing Model Integrating Graph Attention Network," 2022 Prognostics and Health Management Conference (PHM-2022 London), 2022, pp. 389-394, doi: 10.1109/PHM2022-London52454.2022.00074.

Research on Deep Knowledge Tracing Model Integrating Graph Attention Network | IEEE Conference Publication | IEEE Xplore

主要贡献:

一种基于图注意力网络机制的知识追踪模型,1——利用图注意力网络(GAT)揭示答案记录中知识点之间潜在的图结构,2——并通过注意力机制聚合相关度,使模型的输入信息包括问题与知识点之间的关系信息,增强了模型的可解释性,提高了模型的预测精度。

(将GAT融入知识追踪KT)

之前存在的问题:

将练习记录简化为单一知识点序列的前提下,忽略了练习中知识点之间的关系,导致一些高维信息无法被模型有效利用,模型的可解释性较差

GAKT四层架构:

1、knowledge graph layer; 用GAT 学习图,获取知识点的向量表示

2、embedding layer;原始的输入(也就是DKT的one-hot编码)+上一层学到的知识点向量

3、learning layer;LSTM

4、prediction layer 注意力机制,长短期学习(预测结构由两部分组成)

A. Knowledge Graph Layer

输入:

其中N:节点个数 F:特征的维度

输出:

每个节点的特征表示(经过aggregation和transformation的)

三步:

Step1——linear transformation

The first step entails applying a shared linear transformation parameterized by a weight matrix to each node. 应用一个共享参数的 权重矩阵。

Step2——self-attention

1)Then, the self-attention mechanism a is performed on the nodes to calculate the attention coefficient 注意系数?

2)Among them, by using the masked attention mechanism for nodes, the formula only calculates the attention coefficients of the current node and adjacent nodes. Then use the softmax function to normalize

该公式只计算当前节点和邻居节点的注意力系数。然后使用softmax函数来归一化

Since the self-attention mechanism is a single-layer feedforward neural network using the LeakyReLU activation function, the attention coefficients can be transformed into

由于自我注意机制是一个使用LeakyReLU激活函数的单层前馈神经网络,注意系数可以转化为

Step3——feature aggregation

compute a linear combination of adjacent node features using the normalized attention coefficients as the final output feature for each node

使用归一化注意力系数计算相邻节点特征的线性组合,作为每个节点的最终输出特征

*怎么获取邻接矩阵A

GAT需要原始的特征信息(feature information)和邻居信息(adjacency information)。从哪里来?

Node feature F可以从数据集中获取。

Adjacency information 也就是知识点之间的关联,应该由专家标注。

本文提出知识转化矩阵knowledge transformation matrix A代表知识点之间的潜在关联信息。

如果满足下式,那么Aij为1。其中wA是超参,用来控制关联的程度。y(j|i)代表在正确回答了与知识点i相关的练习后,正确回答与知识点j相关的练习的概率。

Summary

知识点向量:

B.Embedding Layer

在DKT中,输入是学生作答序列的独热编码,缺乏feature,所以可解释性差。

在GAKT中,除了传统的作答序列,上一层得到的知识点向量也被嵌入,一起作为模型的输入,加强了可解释性。

学生作答序列:

嵌入如下:

V0是全为0的向量

Et是独热编码,练习对应知识点id,对应位置为1,其余置0。(和DKT的input一样)

最终的input要concat上一层的知识点向量

*(也就是DKT的作答序列嵌入和上一层获得的知识点向量concat起来)

C.Learning Layer

用LSTM学习作答序列的潜在信息。

学生的潜在知识状态knowledge state 。架构如下:

 

D.Prediction Layer

题库中的一些题目考察的是相同的知识点,学生在这些类似的练习中可能得到类似的分数。

预测层引入了注意力机制。

假设最终的预测结果是由当前预测结果和历史预测结果相互作用形成的。

在时间t,学生的知识状态被转化为当前知识掌握的预测结果

根据注意力机制的时间t-1的历史相关知识的预测结果,可以表示为

余弦近似是用于获得 时间t的练习和历史时间练习的 attention coefficiency。

总而言之,预测学生在时间t的成绩的状态由两部分组成:当前的预测结果和历史预测结果。

E.Model Optimization Goal

模型需要训练的参数有:权重矩阵和偏移量(weight & bias)(knowledge graph layer, learning layer, and prediction layer)

用梯度下降 gradient descent 最小化cross-entropy loss

预测值rt,真实标签at

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值