论文翻译：Automatic Lesson Plan Generation via Large Language Models with Self-critique Prompting

CSPhD-winston-杨帆

已于 2024-07-23 10:36:45 修改

阅读量223

点赞数 13

分类专栏：论文翻译智慧教育文章标签：语言模型人工智能自然语言处理

于 2024-07-22 21:37:18 首次发布

本文链接：https://blog.csdn.net/WhiffeYF/article/details/140620317

版权

论文翻译同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

智慧教育

2 篇文章 0 订阅

订阅专栏

Automatic Lesson Plan Generation via Large Language Models with Self-critique Prompting
https://link.springer.com/chapter/10.1007/978-3-031-64315-6_13

通过自我批评提示的大型语言模型自动生成课程计划

摘要

在本文中，我们利用大型语言模型（LLMs）的理解和生成能力来自动生成定制化的课程计划。这解决了传统计划可能无法充分满足不同教学环境和学生群体的特定需求的常见挑战。我们提出了一个新颖的三阶段过程，包括使用检索增强生成（RAG）逐步生成课程计划的每个关键组成部分，通过LLMs进行自我批评，以及随后的细化。我们使用这种方法为小学2至5年级生成了涵盖80多个主题的数学课程计划。邀请了三位经验丰富的教育工作者制定全面的课程计划评估标准，然后使用这些标准将我们的LLM生成的课程计划与同一主题的实际课程计划进行基准比较。三位评估员对计划的质量、相关性和适用性进行了评估。评估结果表明，我们的方法可以生成高质量的课程计划。这种创新方法可以显著简化课程计划的制定过程，并减轻教育工作者的负担。

1 引言

课程计划是教师日常指导学生需要学习什么、如何教授以及如何衡量学习成果的指南[20,27,29]。课程计划的一个示例如表1所示。作为教师的基本工具，它作为指导详细说明了一节课的指导过程或“学习轨迹”[7,15]。这种基本工具的细节程度因教师的偏好、所涵盖的科目和学生的特定需求而异[26]。课程计划是教学过程的重要组成部分，需要系统化的组织和深思熟虑的准备[29,32]。一个精心构建的课程计划不仅反映了学生的兴趣和需求，还融入了教育领域的最佳实践。

在这里插入图片描述
表1. 课程计划示例

平行四边形

学生学习分析
考虑到我们的学生群体是初二学生，他们应该在第一年掌握了基本的几何知识…

课程目标

知识与技能：学生应能够理解并掌握平行四边形的基本属性，包括对角线相等等，…
过程与方法：使学生能够直观地理解平行四边形的属性，例如通过物理模型…
情感态度与价值观：激发学生对学习平行四边形的兴趣，并增强他们的学习热情和参与度…
综合应用：使学生能够将他们所学的平行四边形知识应用到…
重点与难点
理解平行四边形的属性：本课的主要内容是平行四边形的属性，…
绘制平行四边形：学生需要掌握如何…
材料
教学辅助工具：确保有足够的尺子和量角器供学生使用。准备一些…
教材准备：除了熟悉教材中关于平行四边形的内容外，还有必要…
课件准备：设计一个包含理论知识、示例、练习等的平行四边形PPT课件。确保…
课程计划准备：应根据学生的学习情况和教学目标制定详细的课程计划。目标是…
练习准备：设计…
课程流程
复习旧知识：教师：让我们从复习我们学过的形状开始。你能告诉我什么是平行线和垂直线吗？…
引入新知识：教师：今天我们要学习平行四边形。在此之前，你能不能试着告诉我平行四边形的定义和…
学习新知识：教师：现在，我想让你试着用尺子和量角器画一个平行四边形，并尝试找出它的属性。学生：（学生尝试绘制。）…
活动意图：通过动手实践，学生可以…
巩固新知识：教师：好的，现在我们做一些关于平行四边形的练习，这将帮助你更好地理解和掌握平行四边形的属性。学生：…
活动意图：通过练习训练，巩固学生的新…
拓展新知识：教师：实际上，平行四边形在我们的日常生活中随处可见。现在…
活动意图：通过引导学生发现生活中的应用，增强学生的…

作为教学过程中复杂但至关重要的一部分，制定可靠的课程计划有利于课堂发展和管理。各种研究已经探索了有效课程计划的设计。例如，Iqbal等人主要关注通过关键因素增强基于理论的课程计划[19]。Vdovina等人将批判性思维整合到课程计划中，促进了更具互动性和启发性的学习环境[31]。此外，Ferrell和Barbara探讨了将课程计划作为一种工具来衡量项目效果，展示了课程计划的多方面效用[11]。

尽管重要且有益，但创建高质量的课程计划仍然是一项具有挑战性的任务，特别是对于那些资源和支持有限的农村教师[10,16]。虽然一些现有的课程计划是可获取的，但它们往往不符合教学环境或学生群体的具体需求。这种不匹配可能导致次优的教学和学习体验。此外，农村教师缺乏专业发展机会，这阻碍了他们在课程设计和计划方法上的创新能力。

为了解决这个问题，在这项工作中，我们探索了由OpenAI提供的大型语言模型（LLMs）在创建定制化课程计划方面的潜力，这些课程计划满足个别教师的独特需求[1,34]。我们设计了一个三阶段的过程，充分利用LLMs在生成课程计划方面的能力。

首先，我们基于检索增强生成（RAG）生成课程计划的每个关键组成部分，以确保其全面和详细。其次，我们让LLMs进行自我批评，以促进生成的课程计划的持续改进和细化。为了确保最终结果高质量并达到预期目标，LLMs根据这些自我批评细化课程计划。我们邀请了三位人类评估员根据质量、相关性和适用性评估LLMs生成的课程计划。

2 背景与相关工作

2.1 课程计划基础

课程计划是一个指导性文件，概述了特定课程的教学目标以及学生应使用的策略来实现这些目标。根据Nesari等人[27]的研究，课程计划被定义为教育过程的书面叙述，它指定了学习者应该学习什么、何时学习、在何处学习、如何学习，以及他们的学习应如何被评估。它是帮助教师保持组织和提供有结构的教学框架的关键工具，从而提高教学和学习的有效性。

Amininik等人提出，教育工作者准备课程计划是提高教育质量的一种可行策略[2]。

课程计划的组成部分可能会有很大的变化，这取决于教师的偏好、科目内容和学生的需求。通常，一个基本的课程计划通常包括：

课程目标：明确说明学生在课程结束时应知道或能够做到的内容。这些目标为课程提供了重点，并指导了教学活动和评估方法的选择。
教学过程：提供了从引入到结束的活动顺序，主要教学活动构成了课程的核心。这些活动在课程目标的指导下，涉及直接教学、指导练习、协作学习或独立工作，旨在促进学生对内容的理解和掌握。
评估方法：包括形成性评估、总结性评估、自我评估和同伴评估。它们提供有关学生学习情况的反馈，并通知教学决策和评估方法。

除了上述核心组成部分外，课程计划还可以包括但不限于以下组成部分：

课程标准：通常由国家或地方教育当局制定，以定义学生在特定年级或学科领域应获得的知识和技能。
课程时长：指定每段课程的时间要求，确保教学节奏适当，并为每项活动分配足够的时间。
重点与难点：根据课程目标和对材料的科学分析确定。它们代表了课程最基本和核心的内容，通常体现了学科阐述的最重要的原理或法则。
教学材料：列出在课程中使用的材料。这些可能包括教科书、讲义、教具、技术工具和其他支持教学和学习的资源。
学生学习分析：是一个关键过程，用于理解每个学生独特的学习需求和挑战。这种分析涉及评估学生当前的知识水平、学习风格和学术进步。它还可能包括识别学生可能遇到的任何学习困难或障碍。

2.2 课程计划设计

课程计划作为教师实现预期教学成果的指导。设计课程计划涉及考虑目标、科目内容、材料、时间分配、水平、方法论、活动和评估方法[29]。关于课程计划设计的研究可以归为三种类型：首先，基于研究的课程计划设计方法：教师依赖教育研究的发现来设计理论上有根据的教学活动和过程[21,31]。其次，技术支持的课程计划设计方法：教师严重依赖教育技术，如在线教学平台和大数据分析，以获取高效和个性化的教学和学习活动和过程[26,32]。第三，协作式课程计划设计方法：利用教师之间的协作，包括共同设计课程计划、共享教学资源和评估彼此的教学效果。这使得更有效的教学和学习活动和过程的设计成为可能[8,27]。

2.3 通过大型语言模型提高教育质量

大型语言模型（LLMs）在众多领域的任务中展示了非凡的能力[4,25,30,33,34]。最近，LLMs在教育中的使用作为一个有希望的方向发展。例如，非营利教育机构Khan Academy开发了一个名为Khanmigo的AI聊天机器人，使用GPT-4作为虚拟辅导员和课堂助手[14]。He等人提出了将LLM与外部符号求解器结合来解决数学应用问题，这比之前的研究提高了20%的性能[17]。Cao开发了一个智能辅导系统，利用GPT3协助中国学生学习他们的CS1课程[5]。此外，越来越多的实践经验和专门工具旨在利用LLMs进行课程计划。一些博客1和在线资源提供了LLMs在生成课程计划中的实际应用的见解，并且已经开发了专门工具2用于与LLMs进行课程计划。在最近的研究中，Lee等人展示了韩国大学的预备小学教师如何成功地将ChatGPT整合到科学课程计划中，揭示了多样化的应用和策略[22]。Hu等人基于教育内容知识[6,13]理论，进行了一项研究，评估了GPT-4在创建高中数学课程计划中的有效性[18]。

3 我们的方法

3.1 框架概述

为了提高课程计划设计的效率和质量，我们提出了一个利用LLMs自动生成课程计划的框架，灵感来源于软件开发中的迭代改进方法[9,28]。所提出的框架由三个阶段组成：组件生成、自我批评和细化（如图1所示）。在组件生成阶段，LLM逐步生成课程计划的每个部分的内容。然后模型对生成的课程计划进行自我评估，识别不足之处并提供改进建议。随后，模型根据这些建议细化生成的课程计划。每个阶段的详细信息将在以下各节中分别提供。

3.2 第一阶段：组件生成

组件生成涉及生成构成全面课程计划的各个单独组件，如图1(a)所示。在这个阶段，要求教师提供必要的信息，这些信息将指导课程计划的生成。这些信息包括：

课程目标：明确学生在课程结束时应达到的知识水平和技能。
学生学习分析：评估学生的当前知识水平和学习需求。
教学材料：列出课程中将使用的所有资源和工具。
教学过程：规划从课程开始到结束的所有活动和步骤。
评估方法：确定将用于评估学生学习成果的方法。

教师提供的这些信息将作为LLM生成课程计划组件的输入。LLM将使用先进的自然语言处理技术来理解这些信息，并生成符合教学目标和学生需求的课程计划组件。这个过程确保了课程计划的相关性和个性化，同时也减少了教师在课程计划设计上的工作量。

在这里插入图片描述
图1. 自动生成课程计划的框架。

生成课程计划包括以下要素：(1) 课程主题，它有助于确保课程计划的内容与特定课程相关且适当；(2) 年级水平，它告知内容的复杂性和深度，确保其适合该年级学生的认知能力和学习需求；(3) 学科，它确保课程计划与学科内容一致，并涵盖了必要的知识和技能。然后，教师可以选择他们希望在课程计划中包含的特定组件，即学生学习分析、课程目标和教学过程。此外，教师还可以为每个组件提供相关信息和具体要求。例如，学生学习分析：学生在上个学期已经对三维形状有了初步的理解。教学过程：本课的教学模式是探究式教学，以解决问题为中心。

RAG是一种结合信息检索和文本生成的技术，用于提高LLMs在特定任务上的性能[12,23]。利用RAG，我们首先根据教师的输入执行检索步骤，在从现实世界收集的课程计划数据集中搜索。这一步使我们能够识别和提取与教师提供的信息一致的课程目标。这些目标随后作为模型的额外信息输入。通过使用RAG，我们提高了模型生成内容的准确性和实际应用性。

这些组件由模型独立生成，它将所有先前生成的组件作为输入纳入模型，然后再启动新组件的创建，以确保每个组件的相关性和整体的连贯性。逐步生成过程有助于模型精心打造每个组件。

在这里插入图片描述
表2. 自我批评示例。

课程计划：两位数加一位数，两位数

以下是我的评分：

学生学习分析：
这一部分非常详细，不仅涵盖了学生已经掌握的先决知识点，还分析了本课知识点的特点，并考虑了学生的发育水平。然而，应该进一步具体化，例如，通过识别哪些学生掌握了哪些知识点，哪些学生面临特定困难，以便进行更有针对性地教学。

课程目标：
课程目标设置清晰，包括知识与技能的掌握，过程与方法的应用，以及情感、态度和价值观的培养。然而，它们可以通过将知识与技能的掌握进一步细分为更具体的子目标来进一步细化。

重点与难点：
重点与难点与课程目标一致，考虑了两位数加法进位的理解与应用，以及解决实际问题。然而，应该更清楚地指出哪些知识点是重点，哪些是难点，以便进行更有针对性地教学。

教学材料：
材料全面，包括教学辅助工具、课件和练习的准备，以及个别辅导和教学评估的准备。然而，教学辅助工具和课件的使用，以及练习和辅导内容的具体设置，可以进一步明确。

教学过程：
教学过程设计合理，包括引入、示范与练习、个别辅导和解决实际问题，过渡自然，逻辑连贯。然而，可以考虑增加一些有趣的活动，如游戏，以进一步提高学生的参与度。

3.4 第三阶段：细化

细化阶段利用自我批评阶段得到的反馈来提高生成的课程计划的质量。这个阶段具有迭代性质，允许持续重复以产生更高质量的结果。图1©显示，模型根据自我批评的评分和改进建议来细化课程计划。在细化过程中，模型重新审视课程计划的每个组件，根据需要进行修改以提高其质量和有效性。例如，如果自我批评发现课程目标缺乏清晰度，模型将努力细化这些目标，使它们更具体、可实现和相关。如果批评指出教学过程与课程的重点和难点不一致，模型将调整教学过程，确保它充分解决这些点。

通过自我批评和细化的迭代过程，我们确保生成的课程计划不是一个静态的产品，而是一个动态的。它经过持续改进，直到达到高标准的质量。这个过程也反映了教育工作者参与的反思实践，不断评估和细化他们的课程计划，以提高教学效果和改善学生的学习成果。

在这里插入图片描述

表3. 不同年级的课程计划生成信息。

年级	数量	课程主题示例
2年级	23	初步理解乘法
		6的乘法口诀表
		带括号的加减混合运算
		两位数加两位数（不进位）
		两位数减一位数（不借位）
3年级	25	三位数减三位数（不借位）
		三位数加三位数（连续进位）
		时间单位的简单转换
		理解分数
		1减去一个分数
4年级	24	平行和垂直
		平行四边形的特征
		理解公顷
		三位数乘以两位数
		测量角度
5年级	13	因数和倍数
		小数乘法 - 估算积
		小数除法 - 用小数除以一个数
		简单方程 - 用字母表示数字
		简单方程 - 解方程

4 实验

我们通过调用GPT-4 API来生成课程计划。为确保生成的课程计划的质量和有效性，我们从不同的教育平台收集了模范计划来创建我们的课程计划数据集，所有这些计划都是由人类教育工作者精心制作的。我们选择数学作为本研究课程计划的重点科目，因为它是最具挑战性的科目之一。

4.1 评估过程

在我们的研究中，我们生成了涵盖小学阶段80多个主题的数学课程计划。每个年级的课程计划数量和一些主题示例如表3所示。每个主题的课程计划包括三个版本：

表4. 针对全球评分和组件评分的具体标准和指南。

在这里插入图片描述

v1：一次性生成所有内容，这是在一次运行中生成的版本，展示了模型一次生成完整课程计划的能力。
v2：逐个组件生成，一次只生成课程计划的一个组件，展示了模型对特定组件生成的能力。
v3：针对逐个组件生成进行细化，基于反馈和评估对v2进行细化和改进。

为了有效评估生成的课程计划的质量和可用性，我们邀请了三位经验丰富的小学教育工作者根据他们的经验制定一套全面和详细的课程计划评估标准。

这些标准包括全球评分和组件评分。全球评分最多30分，涉及课程计划的整体完整性、准确性、一致性和逻辑性。组件评分总共66分，评估课程计划各个组件的质量，如课程目标的清晰度、材料的完整性和教学程序的有效性。评估标准提供了衡量课程计划质量和可用性的量化方法。全球评分和组件评分的具体标准和指南在表4中详细说明。随后，根据这些评估标准，每位课程计划由三位评估员进行评分。

为了更全面地比较模型生成的课程计划与现实世界中的课程计划，除了对模型生成的课程计划的v1、v2和v3版本进行评分外，我们还对同一主题的现实世界中的课程计划进行随机选择并评分。

4.2 结果讨论

我们评估了模型生成的三个版本的课程计划，即v1、v2和v3，以及现实世界的课程计划。评估结果在表5中呈现。

表5. 四个类型课程计划在4个年级中的平均分比较。每个年级的最佳结果以粗体突出显示。
在这里插入图片描述
如表5所示。(1)
在全球评分中，与v1和v3相比，v2得分最低，v3和v1之间的差异很小。值得注意的是，v3在第二和第四年级的课程计划中超过了v1。这表明逐个组件生成的方法并不像一次性生成所有内容那样有效地确保连贯性和相关性，倾向于生成冗余内容。然而，自我批评和细化过程可以在一定程度上缓解这些问题。与本文图表中以“human”表示的人类设计的课程计划相比，模型生成的计划展现出更完整的结构。在第三和第五年级，人类设计的课程计划经常缺少组件，主要是在学生学习分析和材料方面。例如，如图2所示，人类设计的第三年级课程计划在结构完整性（g1）方面仅逊于模型生成的计划。(2)在组件评分中，v1低于v2和v3，v3优于v2。例如，在二年级，如图3所示，22个组件评分项目中的大多数显示出v1 < v2 < v3的趋势。这表明逐个组件生成的方法促进了模型对不同组件的更有针对性思考，从而产生更具体的内容，而v1倾向于生成更泛化的材料。将模型生成的课程计划与人类设计的课程计划进行比较时，后者缺少组件的频繁出现导致组件评分低于v2和v3，这两者通常高于v1。然而，当仅分析组件评分中的课程程序部分时，如图4所示的第四年级，人类设计的课程程序主要优于模型生成的程序。这可能是因为人类设计的过程更符合实际教学，具有更详细和具体的活动，但缺乏师生互动和时间分配。这些发现为模型课程计划生成的未来优化提供了指导。(3)在总分中，v3在四种类型的课程计划中胜出，强调了我们方法论途径的有效性。v3结合了v1的全局连贯性和v2的组件特异性，展示了逐步生成和细化在制作高质量课程计划方面的潜力。

在这里插入图片描述

图3. 第二年级v1、v2和v3课程计划的平均组件得分。

图4. 第四年级v1、v2、v3和现实世界课程计划的平均教学程序项目得分。
在这里插入图片描述
图5. 三位评估员之间得分差异的对比。

为确保评分的公平性和一致性，每个主题的四份课程计划由三位评估员进行评估。我们计算评估员给出的每个年级课程计划的平均得分，进行成对比较。任何两位评估员之间得分差异小于5分被认为是一致的；否则，得分被认为是不一致的。图5展示了三位评估员之间得分差异的分布。显然，在对不同年级的课程计划进行评分时，三位评估员通常在全球评分、组件评分和总评分上都能达到一致，只有少数评分差异的情况。这表明评分结果是可靠的。

5 结论

在本文中，我们介绍了一种使用LLMs为教师创建个性化课程计划的新方法。我们设计了一个三阶段过程，其中LLMs最初通过检索增强生成逐步创建课程计划的组件，然后根据人类定义的评估标准进行自我批评，最后细化课程计划。通过三位评估员对LLMs生成的课程计划和现实世界的课程计划进行严格的评估比较，结果表明我们的方法可以生成高质量的课程计划。这种方法可以使课程计划更加高效，并通过满足个体教学需求来改善教育。

未来，通过进一步细化和探索其在不同学科和教育阶段的适用性，可以发掘这种方法的潜力。此外，还可以研究LLMs在教学和学习的其他领域中的能力。这项研究强调了将人工智能整合到教学中的可行性和有效性，这将促进未来教育领域的人工智能研究。

CSPhD-winston-杨帆

关注

13
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文翻译：Automatic Lesson Plan Generation via Large Language Models with Self-critique Prompting

在本文中，我们利用大型语言模型（LLMs）的理解和生成能力来自动生成定制化的课程计划。这解决了传统计划可能无法充分满足不同教学环境和学生群体的特定需求的常见挑战。我们提出了一个新颖的三阶段过程，包括使用检索增强生成（RAG）逐步生成课程计划的每个关键组成部分，通过LLMs进行自我批评，以及随后的细化。我们使用这种方法为小学2至5年级生成了涵盖80多个主题的数学课程计划。邀请了三位经验丰富的教育工作者制定全面的课程计划评估标准，然后使用这些标准将我们的LLM生成的课程计划与同一主题的实际课程计划进行基准比较。
复制链接

扫一扫