【论文阅读】基于整合项目反应理论（IRT）的深度神经网络的解析自动作文评分

最新推荐文章于 2024-12-04 13:12:27 发布

沐兮Krystal

最新推荐文章于 2024-12-04 13:12:27 发布

阅读量1.3k

点赞数

分类专栏： NLP 文章标签：论文阅读 dnn 神经网络

本文链接：https://blog.csdn.net/GW_Krystal/article/details/127458903

版权

NLP 专栏收录该内容

27 篇文章

订阅专栏

摘要

作文考试一直以来作为一种衡量应试者的更高等级的能力的方式吸引大家的注意，但是目前在对他们进行评分评定等级的时候有两个主要的缺陷，一是人力成本昂贵，二是存在公平性的问题。作为一种克服这些困难的方式，自动作文评分（AES）有着持续的需求。
大多数现有的模型被设计为只是预测一个单一的整体分数。但是，在实际应用场景下如果要提供更加细致的反馈，我们不仅需要整体的分数，还需要对应于文章的不用方面的解析分数。
卷积模型被设计为对每个解析分数都有着复杂的神经架构，这使得解释分数的预测非常的困难。
为了提升预测的可解释性同时保持打分的准确度，我们提出了一个新的神经模型用于自动的解析评分，它整合了一个多维度的项目反应理论模型（item response theory），它是一个流行的心理测量模型。

引言

近年，社会中的快速改变已经导致了一个对于不仅是知识技能，而且有应用能力（比如表达技巧、逻辑思考和创造力）培养和评估的不断增长的需求。
但是，作文考试有两个相当大的缺陷，就是给作文打分需要的时间和财力。
AES系统能够被广泛得分类为两个类别：一种是采用特征工程的方法，一种是采用神经网络的方法。
特征工程的方法使用带有预定义好的手工特征的统计或者机器学习的模型；
神经网络方法使用深度神经网络来从文本中自动得抽取特征。
Mathias等人提出一个很早的神经网络解析AES模型，它采用对每个解析分数应用一个惯例的整体打分模型简单的方法。之后，Hussein等人提出一个多输出的模型，在其中输出层被解析分数的数量进行分支，其他层共享。最近的多输出模型是被Ridley等人提出的，它的输出层对于每个解析分数都有一个复杂的深度神经架构。尽管这个模型产生了SOTA的准确率，它在可解释性上也存在一些问题：
- 对每个解析分数的复杂的神经架构，降低了预测的可解释性；
- 总体而言，解析分数被设计出来衡量试题开发者希望评估的受试者的潜在能力。但是，这个模型忽略了一项能力的范围的存在，进一步限制了分数预测的可解释性。
为了解决这些问题，我们提出通过整合一个试题反应理论模型（一个有名的心理测量模型）来扩展常规的解析AES模型。具体来说，我们扩展了Ridley的多输出模型，通过将每个解析分数的复杂的输出层，替换为一个多维度的IRT模型。我们提出的模型的优势是：
- 输出的IRT层只被3中类型的参数解释：对应于每个解析分数的判别力和困难度，以及每个受试者的潜在能力。这使得我们可以更好得解释在分数预测背后的推理。
- 调查能力维度的一个最优数值在多维度IRT模型层，以及分析评估的参数，使得我们能够解释多解析分数中隐含的分数范围。
实验结果显示模型能够提供合理的可解释的参数，并且没有明显得降低打分的准确度。而且还有一个有趣的发现，尽管基准数据集对每一篇文章包含许多解析分数，只有一个或者两个潜在的能力被这些多种分数所衡量。

常规的解析AES模型

baseline 模型是 Ridley等人提出的解析AES模型。模型的架构如下图：
这个模型对每个解析分数有一个复杂的架构，使得很难对分数的预测进行解释。我们的主要目标是使用IRT来提升分数预测的可解释性。

项目反应理论

IRT是一个流行的心理测量模型，广泛用于教育学和心理学的研究中。典型的IRT模型定义了一个受试者收到的在某个测试项目上的分数为，受试者的潜在能力和项目的特征参数（e.g. 判别力和困难度）的一个函数。在多样的现存的IRT模型中，本文采用了一个多维度的普适的部分信用模型（MGPCM，multi-dimensional generalized partial credit model），它是一个有代表性的多维度多点计分IRT模型，能够被应用于序数分数数据，并且能够检验每个受试者的多维度的潜在能力。
如果我们将测试项目的IRT参数视作解析分数项目，MGPCM定义受试者 $n$ 得到在第 $m$ 项打分项目上的得到分数 $k$ 的概率为：
这个模型中所有的参数，包括 $\theta_n$ , $\alpha_m$ , $\beta_{mu}$ ，都可以从一个可观测的分数集合中评估得出。这些参数都具有很清晰的可解释性，会在下文中进一步阐释。

提出的模型

我们提出了一个整合了M-RPCM的解析AES模型。模型架构如下：

模型训练

使用类别交叉熵作为损失函数。

分数的预测

基于输出的分数的概率 $P_{nmk}$ ，有两种预测分数的方式：
- Argmax分数： $arg max_k P_{nmk}$
- 期望分数： ${\textstyle \sum_{k=1}^{K_m} kP_{nmk}}$

模型的可解释性

辨别力参数 $\alpha_m$ ：表明解析分数项目能够多好得区分受试者的能力；
困难度参数 $\beta_m$ ：表明受试者觉得达到解析分数项目的某个分数范围的难度；
受试者能力参数 $\theta_n$ ：代表受试者的能力水平。
进一步得，我们的模型可以使我们在多个解析分数下对能力维度的最优值进行分析，通过比较它的性能和其他不同的维度数量。比如说，如果我们模型的分数预测性能达到最优，在两个能力维度被假设的情况下，之后我们可以解释说，给定的解析分数项目衡量了受试者的两个潜在能力。

实验

数据（Real-word data）

数据来自ASAP和ASAP++数据集。
ASAP数据集包含8个不同题目下的受试者的作文。对于题目1到6，只给出了一个整体的分数；但是在题目7和8中，一些解析分数也被给出。ASAP++数据集是对ASAP数据集的补充，给出了题目1到6的解析分数。

模型评估

我们评估了我们模型的打分准确度，并分别设置能力维度数为1，2，3做了实验，比较了我们的结果与之前提到的基准模型的性能。对于每个题目，我们使用5折交叉验证单独验证了模型的打分准确度，评价指标采用的是二次加权Kappa值（QWK）。具体来说，对于每个题目，我们计算了不同打分项目对应的Kappa值，并对其做了平均。
我们检验了两种输入类型：一个是词序列，一个是POS标签序列。在使用词序列的时候，我们使用Glove词向量做嵌入。
并且，我们评估了两种进行分数预测的方式：分别是取最大和取期望。
下图展示了在题目1中所有的打分项目下，黄金标准分数与模型预测分数（取期望值）的混淆矩阵。

模型的可解释性

在这里插入图片描述