论文翻译:Evaluating Reading Comprehension Exercises Generated by LLMs: A Showcase of ChatGPT in Educatio

Evaluating Reading Comprehension Exercises Generated by LLMs: A Showcase of ChatGPT in Education Applications

https://aclanthology.org/2023.bea-1.52.pdf

https://aclanthology.org/2023.bea-1.52/

由大型语言模型(LLMs)生成的阅读理解练习评估:教育应用中ChatGPT的展示

摘要

最近预训练的大型语言模型(LLMs),例如OpenAI的ChatGPT,已经在各个领域引起了变革。例如,在教育领域开发利用LLMs语言能力的智能系统显示出明显的潜力。尽管研究人员最近探索了ChatGPT可能如何协助学生学习,但很少有研究将这些技术应用于涉及教师和学生的现实课堂环境。在这项研究中,我们实施了一个阅读理解练习生成系统,为中国的中学英语学习者提供高质量和个性化的阅读材料。对生成的阅读段落和相应的练习问题进行了广泛的自动和手动评估,证明系统生成的材料适合学生,甚至超过了现有的人工编写材料的质量。通过结合经验丰富的教育工作者的第一手反馈和建议,这项研究作为ChatGPT的有意义的开创性应用,为未来设计和实施基于LLM的系统在教育环境中提供了启示。

1 引言

阅读理解是英语学习者需要发展和掌握的重要技能。例如,中国的中学生被要求做大量的英语练习,包括阅读至少150,000字的补充材料以提高他们的阅读能力,这是由英语课程标准规定的。

通过与北京经验丰富的英语教师的访谈,我们发现教育工作者和学生面临的一个挑战:重复使用过时的阅读材料,只做了微小的修改,如果有的话。例如,八年级的学生可能会练习他们前一学年(目前的九年级学生)使用的相同练习。英语教师认为,提供最新的、吸引人的、针对每个学生能力和兴趣量身定制的阅读练习可以激发他们学习的热情,并最终提高他们的英语水平。然而,获取大量多样化、定制化、高质量的英语阅读练习证明是一项非平凡的任务。在英文报纸、杂志、教科书和来自英语国家的儿童书籍中有大量文章可以作为中学生阅读材料的潜在来源。尽管如此,通常需要进行调整和重写,因为主题、长度和难度水平的差异。此外,即使对于资深教师来说,根据文本材料制定适当的练习问题也不容易。

预训练的大型语言模型(LLMs)已被研究人员提出,作为解决这一劳动密集型和不可扩展问题的手段(Zhai, 2022; Dwivedi et al., 2023)。阅读理解练习通常由两个组成部分构成:一段长篇连贯的段落和几个与其内容相符的多项选择题。要生成这样的练习,LLMs必须具备对人类语言的高级理解和推理能力。虽然长文本(如故事、新闻文章和诗歌)的生成(Li et al., 2021)和问答(Q&A)对的生成(Kurdi et al., 2020)已经得到了广泛研究,但现有的特定任务模型还不足以满足我们的需求。例如,生成的内容仍然可以与人工编写的文本区分开来,且对不同学习者的个性化水平不足(Kurdi et al., 2020),使这些模型不适合直接应用于教育环境。

最近,OpenAI发布了ChatGPT1,这是一个多功能且互动性强的聊天机器人,在各种NLP任务中超越了最先进的模型,甚至在零样本或少样本情景中也是如此。这个强大的LLM为教育提供了众多机会,包括创建阅读材料和定制练习问题。在这项研究中,我们尝试为中学教师和学生开发一个利用ChatGPT生成阅读理解练习的系统。在精心设计的提示的引导下,ChatGPT可以生成高质量的个性化阅读段落和多项选择题。为了评估生成的练习和整个系统,人类评估者(包括学生、教师和母语者)进行了广泛的分析,确定该系统有望在中学实施,并有可能产生重大的教育影响。总结来说,这项研究做出了三方面的贡献:

  • 我们充分利用了最先进的LLMs的能力来解决复杂和复合任务,将它们整合到一个精心设计的教育系统中2。
    由我们的系统生成的阅读段落和练习问题的质量显著超过了以前模型生成的质量,有些甚至超过了人工编写的教科书练习的标准。
  • 据我们所知,我们的阅读练习生成系统是ChatGPT在教育环境中的首批应用之一。该系统已被中学英语教师使用,在学校产生了实际影响。
  • 我们收集了专家和普通用户对我们系统有效性的反馈。
    我们认为这是有价值的,因为很少有ChatGPT应用被用于现实世界中的教育环境。我们的发现为未来的研究人员和实践者开发更有效的AI驱动的教育系统提供了见解。

2 相关工作

LLM和可控文本生成
随着Transformers(Vaswani等人,2017年)的出现,LLMs在各种NLP任务中表现出色,取得了显著进步(Qiu等人,2020年)。例如,OpenAI的GPT系列模型是功能强大的LLMs,在长开放式文本生成方面表现良好。尽管它们能够生成流畅性高的文本,但研究人员发现,随着生成文本的变长,它开始偏离主题,转向不相关的话题,并变得不连贯(Rashkin等人,2020年)。通过对特定领域数据进行微调或应用一些即插即用的方法,如PPLM(Dathathri等人,2020年),LLMs将获得一定的可控性,并生成更连贯的文本,尽管质量仍有限制。
ChatGPT是在GPT3.5或GPT-4架构的基础上开发的,包括额外的人类指导指令以提高性能。它具有强大的上下文学习能力,能够解释输入提示中指定的要求,无需额外信息(零样本学习),或利用提供的最少示例(少样本学习)。即使没有大量的领域知识,ChatGPT也能够遵循人类指令并生成更高质量的文本。例如,要生成一个关于学校生活的200字阅读段落,只需在提示中指定主题和长度要求即可。

ChatGPT在教育中的应用
随着AI技术的蓬勃发展,其在教育中的应用不断增加,改变了教学和学习的方式(Zhang和Aslan,2021年)。认识到像ChatGPT这样的LLMs的惊人能力,研究人员一直在讨论它们在各种教育场景中的巨大潜在影响(Zhai,2022年)。一些研究(Dwivedi等人,2023年;Pettinato Oltz,2023年)建议ChatGPT可以为学生提供基本的教育材料。LLMs是在人类创建的大量语料库上训练的,以“学习”语言,现在它们可以“教”人类学习者它们已经学到的东西。此外,由于其聊天机器人的特性,ChatGPT可以作为一个个人导师,提供实时反馈(Zentner,2022年),个性化评估和建议(Baidoo-Anu和Owusu Ansah,2023年;Zhang,2023年),以及其他学习支持(Dwivedi等人,2023年),如提高学生的参与度和自主性(Firat,2023年)和解决师生比例低的问题(Chen等人,2023年)。

另一方面,ChatGPT的滥用自发布以来就一直存在(Zhang等人,2023年)。Study.com(一个在线课程提供商)进行的一项调查3显示,89%的参与学生使用ChatGPT做作业,48%的人承认使用ChatGPT进行家庭测试。设计合适的学习任务和系统,引导学生正确使用ChatGPT作为一个有益的学习助手,这一点很重要,并且仍在探索中。

长文本生成的评估
为了评估生成的长文本的质量,研究人员开发了几种指标,包括Self-BLEU(Zhu等人,2018年)和n-gram重复得分(Welleck等人,2020年)。它们通常是不可靠的,并且与人类判断不一致(Belz等人,2020年)。因此,人类评估仍然是大多数长文本生成任务的黄金标准,即使它昂贵且耗时(Celikyilmaz等人,2020年)。
Belz和Reiter(2006年)将常见的人类评估方法分为内在和外在两种。大多数当前的文本生成任务都是通过内在人类评估来衡量的,其中参与者被要求对生成文本的质量进行评分,无论是总体上还是沿着一些设计好的维度(例如,流畅性、连贯性和正确性)(Celikyilmaz等人,2020年)。Likert和滑动刻度是常用的评分方法,尽管存在许多限制(例如,不一致,不直接)(Celikyilmaz等人,2020年)。为了解决这个问题,提出了比较方法,如排名,并发现实现了高注释者一致性(Callison-Burch等人,2007年)。另一方面,外在评估衡量系统在下游任务中的成功程度,从用户在任务中的成功和系统实现其目的的成功两个方面来看(Celikyilmaz等人,2020年;Hastie和Belz,2014年)。

3 方法

3.1 阅读段落生成基线

我们使用经过微调的GPT-2(Radford等人,2019年)结合PPLM(Dathathri等人,2020年)控制作为生成阅读段落的基线方法。基线模型的两阶段开发过程如图1所示。

在第一步中,我们使用来自中学教师的两个阅读数据集对基础大型语言模型GPT-2中型进行微调:补充阅读材料(数据集1)和目前中学使用的教科书练习段落(数据集2)。我们采用两步微调策略,使用不同的学习率以适应每个数据集的独特特性。在第二步中,我们采用PPLM,一种即插即用的可控文本生成方法,引导经过微调的语言模型根据指定的主题关键词生成更连贯的段落。

有关更多细节,请参见附录A。
在这里插入图片描述

图1:经过微调的GPT-2 + PPLM基线

3.2 使用ChatGPT生成阅读理解练习

利用ChatGPT的卓越能力,我们手动设计输入提示来生成高质量的阅读理解段落,无需微调或额外的控制方法。在这项研究中,我们在两种设置下生成文本内容:零样本(zero-shot)和单样本(one-shot),这使我们能够在不同程度上控制输出。

在零样本设置中,我们指导ChatGPT成为一个能够生成高质量阅读段落的有益学习助手,在系统提示中提供了定制的要求,包括长度、体裁、难度级别和主题。除了从头开始创建阅读段落外,教师经常从网络或其他材料中获取内容,并希望将它们改编成适合学生的阅读段落。因此我们在单样本设置中增加了一个额外的要求,即参考段落。

我们还使用适当的提示为给定段落生成问题及其对应答案。我们在输入提示中设置了问题数量、每个问题的选项数量以及问题类型,以实现定制。ChatGPT可以根据它之前创建的段落或用户提供的段落生成练习问题。此外,在生成的练习对教师和学生开放之前,还会进行额外的有害内容检查。

我们将在附录B中描述使用ChatGPT生成阅读理解练习的过程和适当提示的设计。
在这里插入图片描述

图2:系统界面的截图。

3.3 系统设计

为了迎合非技术用户,如中学教师和学生,我们将前述部分的功能整合到一个具有图形用户界面的统一系统中。提示和API调用在系统后端进行管理,同时设计了一个用户友好且直观的界面(见图2),以便于使用。

在界面的左侧,用户可以轻松设置他们的需求,其中包含了前面提到的每个功能。输出的阅读段落和练习问题显示在右侧。这些文本区域是可编辑的,允许教师进一步修改生成的内容,以创建适合学生练习的最终版本的练习。

4 评估

在本节中,我们对我们的阅读理解练习生成系统进行了广泛的评估,这些评估在图3中进行了直观的描述。

对于阅读段落质量的评估,我们从数据集2(教科书中的阅读理解练习)中随机选取了30篇人工编写的阅读段落,并与另外60篇段落配对:30篇由ChatGPT生成,30篇由基线模型生成。这些段落的混合被洗牌并编译成我们所称的阅读段落示例集1。我们使用自动评估指标和人工评估(第4.1节)来全面评估这些段落。

为了进一步验证ChatGPT段落的高质量,我们进行了一系列的一对一比较,比较由语言模型生成的段落和人工编写的对应段落。我们选取了10篇人工编写的阅读理解段落,这些段落与阅读段落示例集1中的段落不同,并总结了每篇的主题。然后,我们使用这些主题作为引导约束,指导条件性文本生成,使用GPT-2 + PPLM基线和ChatGPT(零样本),生成与原始人工编写示例主题相呼应的段落。此外,使用人工编写的段落作为参考的ChatGPT的单样本变体,被用来生成第三组段落。总之,阅读段落示例集2包含了10篇原始人工编写的段落,并增加了30篇与相同主题一致的生成段落。

转到练习问题质量的评估,我们从教科书中选取了包含阅读段落及其相关问题的10个练习作为基准。我们的系统基于人工编写的段落生成了一组新的多项选择题。因此,这10篇阅读段落及其相应的20组问题构成了练习问题示例集,在第4.2节中进行了彻底的评估。

对于我们系统的整体评估(第4.3节),我们邀请了中学教育工作者,即我们系统的预期用户,首先亲身使用它。我们请求他们提供富有洞察力的反馈和建议,进一步推动我们持续改进和定制以满足用户需求的目标。
在这里插入图片描述

图3:每个评估部分的说明图。

4.1 阅读段落质量评估

自动指标 首先,我们在阅读段落示例集1上应用了文献中常用的自动指标。表1展示了ChatGPT生成的阅读段落与基线模型生成的段落以及教科书中人类教育工作者编写的段落之间的定量性能比较。总体而言,结果表明,经过微调的GPT-2基线生成的段落最容易阅读,其平均负对数似然(NLL)最低。然而,这并不一定意味着经过微调的GPT-2是最佳模型(Wang等人,2022年),因为它可能在NLL方面过度拟合并生成重复性高的文字。此外,高可读性并不能保证段落在逻辑和连贯性上是合理的,这是评估生成长文本质量的重要维度。ChatGPT生成的段落获得的可读性得分最低,并且表现出更大的多样性。

除了自动指标外,由经验丰富的和受过培训的人类注释者评估的得分作为更可靠的基准(Clark等人,2021年)。接下来,我们将介绍本研究中的两种人类评估设计。

在这里插入图片描述

表1:阅读段落示例集1上自动评估指标的结果。NLL(Alihosseini等人,2019年):平均负对数似然损失;SMOG(McLaughlin,1969年):SMOG等级指数估计了理解写作所需的教育年限;Flesch(Flesch,1979年):Flesch可读性测试,得分越高表示材料更容易阅读;TTR(%)(Richards,1987年;Celikyilmaz等人,2020年):独特词汇数(类型)除以总词汇数(标记)的比例;Rep.(%)(Welleck等人,2020年;Pascual等人,2021年):重复4-gram的比例。

我们总共收集了270份单独评估,每个段落进行3次评估。对于母语为英语的评估者,我们通过亚马逊Mechanical Turk招募他们,并为每个段落收集5次评估。每次评估包括5个分数,用于衡量文本质量的不同维度。这些维度在文本生成研究的人类评估中广泛使用,并根据其对阅读理解场景的重要性进行了仔细选择。质量维度的解释如下:

  • 可读性:文本易于阅读(Forrest等人,2018年;Di Fabbrizio等人,2014年)和流畅(Mahapatra等人,2016年;Belz和Kow,2010年)的程度。
  • 正确性:文本准确反映事实和常识、逻辑性(Celikyilmaz等人,2020年),以及语法正确性(Wubben等人,2016年)的程度。
  • 连贯性:文本与特定主题或故事情节一致性的程度(Santhanam和Shaikh,2019年)。
  • 吸引力:文本的有趣和吸引人的程度。
  • 总体质量:阅读段落的总体文本质量。

评估结果如表2所示。令人惊讶的是,根据有经验的学生评估,ChatGPT段落的质量分数在所有选定的维度上都高于人工编写的段落。经过微调的GPT-2基线生成的段落通常质量较低,与其他两组段落不具有可比性。对于母语者的评估,段落的分数通常低于中国学生的评分,因为中学学生使用的阅读材料对母语者来说可能太简单了。尽管如此,结论并未改变:ChatGPT段落具有最高的总体质量。

我们还进行了注释者间可靠性测试,以确保评估结果是可靠的。在学生评估者中,我们观察到平均皮尔逊相关系数为0.64,评分的平均Cronbach’s Alpha为0.82,表明内部一致性高且测量可靠。在随后的人类评估中进行了类似的测试,所有测试都显示出可靠的结果,因此我们将不再进一步详述。
在这里插入图片描述
表2:由经验丰富的中国学生和英语母语者在五个维度上对三组段落的质量得分评估。

人类评估2:成对比较
在阅读段落示例集2中,由三组生成的段落(GPT-2 + PPLM、ChatGPT零样本和ChatGPT单样本生成的)与人工编写的段落并排展示给评估者进行比较。换句话说,每位评估者一次展示两篇段落,一篇由模型生成,另一篇由人类编写,顺序是随机的。我们没有为这次评估招募母语者,而是完全依赖于大学生。因为我们认为不熟悉中国阅读理解练习的母语者不适合进行比较评估。为了避免学习效应,我们另外招募了9名学生进行人类评估2。与人类评估1类似,我们为每组段落收集3次评估。评估问题如下:

  • 相对质量得分。由于之前的评估已经评估了多个维度,这里我们只关注总体质量进行简单验证。对于同时显示的两篇段落,我们要求评估者给质量更好的段落打1分,另一篇打0分。通过在段落和评估者层面取平均值,我们分别为三组生成的段落和三组人工编写的段落获得了三个平均质量得分。以下评估问题以类似方式进行分析。

表3显示,ChatGPT的得分远高于基线得分。此外,评估者认为ChatGPT段落的质量甚至比人工编写的还要好(零样本设置中为0.87对0.13,在单样本设置中为0.80对0.20),这与我们在人类评估1中的发现一致。对于ChatGPT段落,单样本得分略低于零样本得分(0.80对0.87),这可能是由于更多限制导致质量略有下降。尽管如此,ChatGPT在使用我们设计的提示进行阅读段落生成任务时表现相当出色。

在这里插入图片描述

表3:人工编写段落与生成段落之间相对质量得分的比较。得分越高表示质量越好。

  • 模型生成得分。我们还研究了评估者是否能够区分人类编写的段落和模型生成的段落。为此,我们设计了一个简单的图灵测试,要求评估者如果他们认为段落是由语言模型生成的,则分配1分,否则为0分。因此,得分越低,该段落被认为由人类编写的可能性越大。从表4中,我们发现ChatGPT生成的段落得分低于并排展示的人工编写的段落,这意味着评估者认为ChatGPT段落更可能是人工编写的,而不是真实的,这是一个有趣的发现。另一个发现是,在单样本设置中,生成的和人工编写的段落得分最低。一个合理的原因是ChatGPT非常好地模仿了参考段落的风格和结构。当两个类似的高质量段落同时出现时,评估者倾向于认为它们不太可能是由模型生成的。
    请注意,如果要求母语者评估这一维度,结果可能会有所不同。因为他们的语言熟练度更高,更有可能注意到非母语者没有注意到的特征。

  • 主题连贯性得分。我们检查段落是否与给定主题一致,即模型的控制和个性化能力。一致性得1分,而0分表示不一致。表5显示,即使在领域知识上进行了微调,并且有PPLM的额外控制,GPT-2基线仍然没有很好地生成符合给定要求的段落。相比之下,ChatGPT即使在零样本情况下得分特别高(得分为0.97),表明它非常理解并遵循提示中指定的指令。
    在这里插入图片描述

表4:人工编写段落与生成段落之间的模型生成得分比较。得分越高表示该段落更可能被认为是由语言模型生成的,而不是由人类编写的。

在这里插入图片描述

表5:人工编写段落与生成段落之间的主题连贯性得分比较。主题连贯性得分越高表示该段落与给定主题更一致。

  • 适宜性得分。这一评估维度要求评估者具有阅读理解练习的丰富经验,并且不适用于不熟悉中国英语教育的英语母语者。如果认为适宜,该段落应得1分,否则为0分。我们在表6中的发现表明,评估者普遍认为由ChatGPT生成的段落作为阅读理解材料大体适宜,甚至比目前用作练习的段落还要好。

在这里插入图片描述

表6:人工编写段落与生成段落之间的适宜性得分比较。适宜性得分越高表示该段落更适合中国的中学生。

总之,人类评估结果表明,我们系统生成的ChatGPT段落在多个维度上质量很高,而且在许多情况下甚至比人工编写的阅读段落还要好。经验丰富的评估者认为,将这些材料应用于真实的教育环境中是适宜的。

4.2 练习题目质量评估

接下来,我们将评估生成的阅读练习题目的质量。目前,尚无可靠的度量标准来评估生成的多项选择题的质量,因此我们完全依赖于人类评估。

与人类评估2中评估段落的方式类似,每位评估者面对两组问题,一组由系统生成,一组由人工编写,同时展示练习题目示例集中的基础段落。评估者被要求根据各种方面评估问题的质量问题,使用1到5的评分范围。考虑以下方面:

  • 问题与段落内容的匹配程度。我们想检查由我们系统生成的问题是否与段落内容一致,以及我们是否能够在段落中找到正确答案。这是生成问题适合学生练习的基本要求。
  • 问题对学生训练的有用程度。此外,我们确保问题不是没有意义的,并且它们可以作为有效的练习,有助于学生的英语学习。
  • 问题对中学英语学生适宜性的程度。这个维度与前一个类似。基于他们对英语阅读练习的丰富经验,评估者评估生成的问题对于中国中学的学生来说是否太难或太简单。
  • 问题看起来是由语言模型编写的程度。如果生成的问题表现出某些模式,它们将很容易被区分于教科书中的练习问题,表明生成的问题过于刻板,不够灵活。

从表7中,我们观察到人工编写的问题在所有四个维度上都优于生成的问题。尽管生成的问题与段落内容高度相关(匹配得分为5分中的4.38分),但其中一些问题表现出明显的模式,过于直接,缺乏变化。教师可能需要在分配给学生之前,从各种生成的问题中选择合适的练习题目。
在这里插入图片描述

表7:人工编写和生成的练习在四个维度上的质量比较。

4.3 系统质量评估

我们的系统整合了上述描述的功能,主要是为中学教师设计的。为了收集对系统的反馈,我们邀请了北京三位经验丰富的教师,他们拥有多年教学经验,亲自使用系统一周,并通过访谈提供他们的反馈。他们的反馈和建议在附录C的表12中进行了总结。尽管还有改进的空间,例如进一步优化多项选择题的生成,但我们系统生成的阅读练习的质量远远超出了教师的预期。教师们认为这个系统是一个有价值的工具,可以显著降低成本和时间,同时为学生提供更多样化和个性化的学习材料。

5 结论

在这项研究中,我们尝试为中国的中学教师和英语学习者开发一个教育系统,利用大型语言模型(LLMs)的能力来生成阅读理解练习。在不同群体的代表性人类评估者中进行了广泛的评估,并且生成的阅读练习的高质量得到了广泛认可。经验丰富的英语教师也对系统提供了极其积极的反馈,表明其在现实世界教育中有广泛的应用潜力。
我们的系统是ChatGPT在教育环境中的首批应用之一,宝贵的反馈和发现可能会激励未来的研究人员和教育工作者将AI技术整合到教育中。

局限性
正如评估部分所指出的,我们的系统在多项选择题生成方面并不完美,特别是当涉及到生成干扰选项时,即使有强大的ChatGPT也是如此。下一步,我们可以采用大型语言模型的开源框架,并使用中学教师提供的大量教育材料微调特定领域的模型。这样,问题生成能力可能会得到改进,我们将不必依赖OpenAI API。

另一方面,尽管已经进行了广泛的评估,但它们只涉及预访谈设置中一小部分教师和学生。一旦我们的系统被广泛部署,将收集和分析更多的用户反馈,以监控其有效性。

  • 14
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值