【阅读笔记】应用LRP，通过将相关性从模型的输出层反向传播到其输入层来解释基于RNN的DKT模型(一)

本文链接：https://blog.csdn.net/m0_48148247/article/details/127634611

提示：Towards Interpretable Deep Learning Models for Knowledge Tracing将重点放在应用分层相关传播(LRP)方法，通过将相关性从模型的输出层反向传播到其输入层来解释基于rnn的DKT模型。实验结果验证了采用LRP方法解释DKT模型预测结果的可行性，并部分验证了计算得到的问题层面和概念层面的关联分数。

文章目录

前言
1.LRP
2.LPR Method
- Weighted Linear Connection
- Multiplicative Connection
3.Interpreting DKT Models using LRP Method
- Example
4.Evaluation
5.Conclusion
参考文献
笔记

前言

在深度学习技术快速发展的推动下，深度神经网络被用于设计新的KT模型，以获得更好的预测性能。然而，由于决策过程不透明、内部结构复杂，这些模型的输出和工作机制都缺乏可解释性，严重阻碍了其实际应用。因此，我们提出采用事后方法来解决基于深度学习的知识追踪模型的可解释性问题。

1.LRP

2.LPR Method

Weighted Linear Connection

一般形式：a = activation (Wh + Wx + b)
其中，activate(*)是深度学习模型中常用的激活函数。假设激活函数不改变相关性分布，则weighted connection进一步表示为:
在这里插入图片描述
相关性计算：

Multiplicative Connection

一般形式在这里插入图片描述
在前馈方向上，“门”神经元已经决定了应该在上层神经元中保留多少信息，并最终决定了模型的决策，我们可以简单地将其从上层接收到的相关性视为零，同时将全部功劳归功于“源”门。因此,我们有：
在这里插入图片描述

3.Interpreting DKT Models using LRP Method

LSTM中具有两种连接类型的前馈预测路径和解释其预测结果的反向传播路径
在这里插入图片描述
计算式：

Example

给定一个经过训练的数学DLKT模型和学习者的练习序列作为输入，输入由七个连续的问题组成，这些问题分别与三个不同的数学概念相关联。下表显示了问题的细节和学习者是否正确回答问题。假设下一个问题是关于概念减法数的，我们从输出yt得到预测结果0.746，即正确回答下一个问题的概率。通过迭代使用所提出的解释方法，我们最终可以得到每个输入的相关性值，即从第1个问题到第7个问题，如表1最后一行所示。
我们清楚地看到，正确回答相同或密切相关概念的问题(即第1、2、6和7个问题)会获得显著的正相关性，而错误回答相同概念的问题(即第5个问题)则会获得显著的负相关性。此外，区域矩形(Area Rectangle)上的问题(即第3和第4题)获得的相关性较小，这显然是一个与目标代数概念相距甚远的几何概念，因此对当前预测任务的贡献有限。从这个例子中，我们看到了利用所提方法的一个有意义的解释结果。

4.Evaluation

验证采用LRP方法解释DLKT模型预测结果的可行性

Data and DLKT Model Training

dataset：ASSISTment 2009-2010
使用它的数学“技能构建”数据集，过滤掉所有重复的练习序列和那些没有标记概念的练习。最终，用于训练DKT模型的数据集由4151名学生的325,637个回答记录组成，涉及26,688个问题，涉及110个概念。
所构建的DLKT模型采用LSTM单元，隐维数为256。在训练过程中，将小批量大小和dropout分别设置为20和0.5。模型训练采用Adam优化算法，迭代次数设置为500，初始学习率设置为0.01。随机选取80%的数据作为训练数据，其余20%作为测试数据。重复这个实验10次以计算性能指标。将KT作为分类问题，将练习结果作为二元变量，1代表正确答案，0代表错误答案，整体预测精度ACC和AUC分别达到0.75和0.70。

Question-Level Validation

首先通过实验了解LRP解释结果与模型预测结果之间的关系。
具体来说，选择48,673个练习序列，长度为15，即每个序列包含15个独立的问题，作为解释任务的测试数据集。对于每个序列，我们将其前14个问题作为构建DKT模型的输入，最后一个问题验证模型对第15个问题的预测。结果表明，DKT模型正确预测了34311个序列的最后一个问题，其中阳性和阴性结果分别为25005和9306。
在正确预测序列的基础上，采用LRP方法计算前14题的相关值，然后考察相关值的符号与学习者答案的正确性是否一致。具体地说，我们将之前练习问题中的一致性问题定义为“正确回答的问题具有正相关性值”或“错误回答的问题具有负相关性值”。因此，我们计算每个序列中这种一致问题的百分比，并将其命名为一致率。直观地说，较高的一致性反映了大多数正确回答的问题对预测掌握给定概念的概率有积极的贡献，而大多数错误回答的问题对预测掌握概率有消极的贡献。下图为两组积极预测(即掌握概率高于50%)和消极预测(即掌握概率低于50%)的一致性直方图。显然，我们看到大多数练习序列达到了90%(或以上)的一致性率，这部分验证了使用LRP方法解释DKT模型预测结果的问题级可行性。
在这里插入图片描述
为了进一步定量验证LRP方法得到的问题级相关性，进行了问题删除实验。在正确预测的练习序列中，分别删除相关值递减顺序(阳性预测组)和递增顺序(阴性预测组)的问题。在错误预测的练习序列中，分别删除了相关值递减顺序(阳性预测组)和递增顺序(阴性预测组)的问题。同时，还对所有实验进行了随机问题删除，以达到比较的目的。下图展示了跟踪预测准确性对问题删除数量的影响的结果。我们可以在上图中看到，删除问题显著降低了DLKT模型在正确预测序列上的性能，同时在下图中，删除问题显著提高了DLKT模型在错误预测序列上的性能。问题删除结果部分验证了LRP方法能够正确计算DKT模型预测的问题级贡献。
在这里插入图片描述

Concept-Level Relationship

考虑到每个问题都与一个特定的数学概念相关，进一步利用解释结果来探索这些概念之间的内在联系。
具体来说，对于每个正确预测的序列，在与最后一个问题(即第15个问题)相关的概念上有14个相关值，因此可以获得14个具有相关值的有向概念对。注意，概念对的方向从练习概念(即练习问题)开始，到预测概念(即第15个问题)结束，具有两个相同概念的对可以简单地忽略。然后，从所有的练习序列中收集有效的概念对，并根据预测的概念进行分组。然后，对每组的相关性绝对值取平均值，并据此找出与每个预测概念最相关的概念。下图显示了成对的概念信息，其中使用了三种不同的颜色来描述一些大型集群，这些集群大致可以分为代数、几何和统计。从图中可以观察到许多有趣的关系。
在这里插入图片描述

Example
节点34(在蓝色集群的底部)表示概念排序实数，它由许多相关但高级的概念(例如，除法分数和平方根)指示，而它本身指示其先决概念排序整数。这些有趣的结果表明，LRP方法至少可以部分地恢复DKT模型所捕获的内部概念级关系，但可能需要从教育的角度进一步研究其潜在意义。注意，上图只描述了集群内部已识别的关系，而且一些跨集群的潜在关系也值得进一步研究。

5.Conclusion

在KT域引入了一种事后可解释性方法，该方法适用于一般的基于rnn的DLKT模型。通过使用LRP方法来解释基于LSTM的DLKT模型，展示了这种方法的前景，其中设计了两种特定的策略来分别计算加权线性连接和乘法连接的相关值。从问题和概念的角度对所提方法进行了实验验证，实验结果表明，使用导出的相关值来解释DKT模型的预测是可行的。

参考文献

本文章文字大部分为论文翻译内容，加上个人学习过程中的重点标识，方便后期回顾理解

Lu Y, Wang D, Meng Q, et al. Towards interpretable deep learning models for knowledge tracing[C]//International Conference on Artificial Intelligence in Education. Springer, Cham, 2020: 185-190.

笔记

如何验证使用事后解释方法解释模型预测结果的可行性：
1.通过实验了解事后解释方法解释结果与模型预测结果之间的关系。
2.进行了数据(问题)删除实验，分析结果。【加入随机数据(问题)删除，进行对比分析】
3.进一步利用解释结果来探索概念之间的内在联系。

最新论文(2022)：
Lu Y, Wang D, Chen P, et al. Interpreting deep learning models for knowledge tracing[J]. International Journal of Artificial Intelligence in Education, 2022: 1-24.
阅读笔记：
【阅读笔记】应用LRP，通过将相关性从模型的输出层反向传播到其输入层来解释基于RNN的DKT模型(二)