摘要
论文地址:https://arxiv.org/abs/2404.14316
源码地址:https://github.com/luffycodes/automated-long-answer-grading
迄今为止,教育领域的自然语言处理(NLP)主要集中在简答题评分和自由文本作文评分方面。然而,本文从一个新的角度出发,研究了自动长答卷评分(ALAG)这一相对尚未开发的领域。
对自由文本文章的评估是根据其连贯性和原创性等特点,而长文本作答则是事实性的,需要更复杂的评分方法。传统的自动简答评分法(ASAG)将作答分为五类:正确、部分正确、不一致、不相关和超出领域,但长篇作答可能同时表现出多个类别的特征,因此五类不足以对长篇作答进行评分。
因此,为了进一步推动 ALAG 的研究,本文创建了自己的数据集 RiceChem,该数据集收集了大学化学课程中的 1,264 个长回答;RiceChem 基于 27 个评分标准项目,每个回答都有评分,总共有 8,392 个数据集。总共有 8,392 个数据集。该数据集的平均字数为 120,远高于现有数据集(SciEntsBank:13;Beetle:10;Texas 2011:18),因此适合用于 ALAG 研究�
考虑到传统 ASAG 方法的局限性,ALAG 已被重新定义为一项包含评分标准的任务。在这种新方法中,每个评分标准项目都是学生作答必须符合的标准。自然语言推理模型用于确定每个评分标准是否包含在答卷中,从而实现更精细、更全面的评分。
为了利用 RiceChem 数据集为 ALAG 任务设定基线,对 BERT、RoBERTa 和 BART 等编码器模型进行了微调。因此,使用基于评分标准的方法显然会增加 ALAG 的复杂性:与传统的基于分数的方法相比,ALAG 中基于评分标准的格式能更准确地捕捉学生回答的细微差别和多面性。
它还检查了模型在冷启动情况下的性能,为数据效率和在教育环境中的实际部署提供了宝贵的见解�
此外,还在 RiceChem 中对最先进的开源大规模语言模型进行了基准测试,并将这些结果与 GPT 模型进行了比较。这揭示了 ALAG 与 ASAG 相比有多么复杂。即使使用基于评分标准的方法,大型语言模型在 RiceChem 上的表现也比 ASAG 的 SciEntsBank 差,这表明 ALAG 任务非常困难。
本研究是在教育 NLP 领域解决自动长表分级(ALAG)问题的首次尝试之一�
数据集和方法
本节首先介绍原始 RiceChem 数据集,然后定义 ALAG 任务问题。下图是本文提出的利用 RiceChem 数据集进行自动长表分级(ALAG)的示意图。