《Proactive and reactive engagement of artificial intelligence methods for education: a review》
积极与被动参与人工智能方法在教育中的应用:一项综述
摘要
教育行业通过整合以数字技术为驱动的工具和平台而获得了极大的益处。近年来,基于人工智能(AI)的方法被视为能够提升学生、教师和行政人员教育体验的新一代技术。必要基础设施的同步爆发、数据数字化以及普遍的社会认知推动了这些努力。本文综述文章从一个新颖的分类方法角度探讨了如何利用人工智能、机器学习和深度学习方法来支持教育过程。我们从整体上考察了 AI 驱动方法在教育过程中所涉及的各个环节——从学生招生、课程安排和内容生成的积极规划阶段,到知识传递、绩效评估和结果预测的被动执行阶段。我们使用一组共195篇发表于过去二十年(即2003-2022年)的原始研究文章,对积极和被动参与 AI 在教育中的主要研究方向进行概述和分析。我们讨论了解决方案方法论的范式转变,特别是关于过去这些年中所采用的数据与算法选择。我们进一步探讨了 COVID-19 大流行如何影响这一领域的积极发展、现有的基础设施挑战以及全球采用人工智能教育工具相关的伦理关注。
关键词:人工智能应用(AIA)、面向教育的人工智能(AIEd)、技术增强学习、机器学习、面向社会公益的人工智能(AI4SG)
1. 引言
整合基于计算机的技术和数字学习工具能够提升学生的学习体验和教育者的知识传递过程(Lin et al., 2017;Mei et al., 2019)。它还能有助于加速与教育有关的行政任务(Ahmad et al., 2020)。因此,研究人员不断努力拓展将基于计算机的应用引入课堂和虚拟学习环境的边界。尤其在过去二十年中,基于人工智能(AI)的学习工具和技术在这方面受到越来越多的关注。2015年,联合国大会将为小学、中学、技术和职业教育提供优质教育的需求确认为其十七个可持续发展目标之一(United Nations, 2015)。基于这一认可,预计在全球范围内,利用人工智能支持教育的研发将持续成为焦点(Vincent-Lancrin and van der Vlies, 2020)。
过去,关于利用 AI 驱动方法来教育可能如何改变我们对教育的认知曾有过大量讨论(Dreyfus, 1999;Feenberg, 2017)。然而,在许多早期辩论中,由于缺乏支持基础设施,人工智能的全部潜力并未得到充分认识。直到最近,AI 驱动的技术才可以在课堂环境中使用。自 21 世纪初以来,半导体产业在制造能够高效处理大规模计算的芯片方面取得了快速进展。事实上,预计在未来十年中,这一增长趋势将继续,重点将放在无线通信、数据存储和计算资源的发展上(Burkacky et al., 2022)。伴随着这一同步进展,利用 AI 驱动的平台和工具来支持学生、教育者和政策制定者似乎比以往任何时候都更为可行。
学生的教育过程在其上课并阅读讲义之前便已开始。在传统的课堂教育设置中,行政人员和教育者在学期开始前数周便开始进行招生决策、优化资源的课程安排、策划课程内容和初步作业材料的准备工作。在在线学习环境中,同等程度的努力投入在课程内容结构的制定和向学生营销课程可用性上。学期开始后,教育者的重点是传授课程内容、布置和批改作业以评估进展,并为可能需要额外帮助的学生提供支持。学生的任务是定期获取知识、提出澄清性问题并寻求帮助以掌握内容。而在这一阶段,行政人员的角色则较为不那么亲自参与,他们主要负责确保整体进程顺畅高效。因此,这是一个涉及多个步骤、多个相互依赖和不同利益相关者的过程。全文中我们将这一从头到尾的教育过程称为端到端教育过程。
在本文综述文章中,我们回顾了如何在端到端教育过程中利用机器学习和人工智能来支持不同阶段——从规划和排课到知识传递和评估。为了系统地识别与 AI 在教育中应用有关的不同研究领域,我们首先提出了一种广义分类方法,将文献中的研究文章分为解决知识传递之前任务和在知识传递过程中相关的两大类——即,积极参与与被动参与教育的两类。教育中人工智能的积极参与来源于其在学生招生、课程设计、排课和教学内容生成中的应用;而人工智能的被动参与则范围更广——AI 驱动的方法可用于设计智能辅导系统、评估绩效以及预测学生结果。在图 1 中,我们展示了我们的分类方法概览。我们选择了每个类别下的一组代表性研究文章,并确定过去20年中使用 AI 方法解决的主要问题陈述。我们认为,我们的分类方法向研究人员展示了在教育过程中利用 AI 的广阔应用范围。同时,它也让读者可以识别出某一特定时间点 AI 驱动工具可能适用的环节以及使用这些工具时存在的主要挑战和关注点。文章进一步总结了专家研究人员关于数据集和算法的使用如何随着时间演变,以及未来在这一领域研究的潜力。
通过本文综述,我们旨在回答以下问题:
-
在过去二十年中,教育的端到端过程中广泛研究的人工智能应用有哪些?2020年 COVID-19 大流行如何影响了这一领域的研究格局?回顾过去二十年,利用 AI 服务于教育的应用是否拓宽了或弥合了不同人群在接受优质教育方面的差距?
-
在 AI 驱动的工具和平台中,用于解决端到端教育过程中的研究问题的,数据集和算法的选择在这段时间内有何演变?
从这里开始,本文的组织结构如下。在第 2 节中,我们定义了本综述的范围,概述了论文选择策略并呈现了统计摘要。在第 3 节中,我们将我们的贡献置于过去5年中 AIEd 领域已发表的技术综述文章的背景下。在第 4 节中,我们介绍了我们的分类方法,并对每个类别下的科学和技术贡献进行了回顾。最后,在第 5 节中,我们讨论了过去二十年 AIEd 领域中观察到的主要趋势,讨论了 COVID-19 大流行如何重新塑造 AIEd 格局,并指出了全球采用 AI 驱动教育工具时存在的局限性。此外,在表 1 中,我们提供了本文中常用的技术术语及其缩略语的词汇表。
2. 范围定义
“人工智能”(AI)这一术语由 John McCarthy 在 1956 年提出(Haenlein and Kaplan, 2019)。自 McCulloch 与 Pitts 首次公认地概念化人工神经元的工作以来,AI 经过了多个休眠时期和研究焦点的转变。从通过暴露在略带噪声的观测数据中学习以执行某些预定义任务的算法——即机器学习(ML),到学习将高维观测映射到低维空间表示的更复杂方法,即深度学习( D L DL DL)——目前提供了大量计算技术。最近,研究人员和社会科学家越来越多地利用基于人工智能的技术来解决社会问题并构建可持续的未来(Shi et al., 2020)。本文主要关注这样一个社会发展方面,即教育如何受益于采用人工智能、机器学习和深度学习方法。\
\includegraphics[max width=\textwidth, center]{2025_04_15_3dc005439bdd53236ea5g-03}
图 1\
本文综述中所引入分类法的概览。
\subsection*{2.1. 论文检索策略}
为分析该领域(即 AIEd)中的近期趋势,我们利用 Google Scholar 搜索引擎采样了过去二十年(即 2003 年至 2022 年)发表于同行评审会议和期刊的研究文章。我们通过多步骤过程确定了所选的 195 篇研究文章的语料库。首先,我们确定了一组在 2018 年至 2022 年期间在面向教育的人工智能(AIEd)领域发表的系统综述、调查论文及观点论文。为了确定这组综述论文,我们在 Google Scholar 中使用了关键词“artificial intelligence for education”、“artificial intelligence for education review articles”及类似组合。我们对这些论文进行了批判性审查,并确定了过去二十年(即 2002-2022 年)中在 AIEd 下受到广泛关注且与端到端教育过程密切相关的研究领域。一旦这些研究领域被确定,我们进一步在每个研究领域使用相关关键词(例如,对于辅导辅助类别,我们使用了诸如智能辅导系统、智能辅导辅助、计算机辅助学习系统、情感感知学习系统等关键词)进行深入检索,从而在该子领域中确定了一组初步技术论文。我们通过仔细审查两位作者对每篇论文的问题陈述的重要性、所用数据和所提出的算法,精简了这一初步集合,并保留了最终的 195 篇研究文章。
\subsection*{2.2. 纳入与排除标准}
自从“人工智能”一词出现以来,科学界对于 AI 的范畴进行了广泛讨论。确界其边界尤其具有挑战性,因为这是一个受技术迅速变化影响的领域。对这一辩论的深入分析超出了本文的范围。相反,我们在本节中明确说明了在筛选涉及 AI 在教育中应用的文章时的纳入/排除标准。对于本综述文章,我们纳入使用如下方法的研究文章:最优搜索策略(例如广度优先搜索、深度优先搜索)、密度估计、机器学习、贝叶斯机器学习、深度学习和强化学习。我们不纳入提出使用基于运筹学、进化算法、自适应控制理论和机器人相关概念和方法的原始研究文章。在本综述中,我们只考虑以英文发表的同行评审文章。除非作者已发表了描述相同贡献的同行评审文章,否则我们不纳入专利技术和带版权的教育技术软件系统。
\subsection*{2.3. 统计摘要}
在界定了我们综述的范围后,下面我们提供了本文涵盖的 195 篇技术文章的统计摘要。在图 2 中,我们展示了过去二十年中纳入的科学和技术论文的分布情况。我们还从针对它们所面向的目标受众的角度对我们的分类方法进行了内省(见图 3)。我们主要将教育技术的目标受众群体划分为以下几类——学前儿童、小学生、中学生和高中生、大学生、标准化考试考生、在线学习平台的学生、大规模开放在线课程(MOOCs)的学生以及专业/职业教育的学生。那些没有明确提及受众群体的文章被记为“未知”目标受众类别。
在第 4 节中,我们介绍我们的分类方法,并对每个类别中的技术贡献进行了深入探讨。如适用,我们还进一步确定了当前受到广泛关注的特定研究问题,作为某一类别中的子类别。在表 2 中,我们展示了每个分类下重要研究问题的分布情况。
我们将这些统计图中的趋势分析推迟到本文的第 5 节进行讨论。
3. 相关工作
技术领域中的人工智能作为一个研究领域自20世纪50年代以来逐渐演变。同样,利用基于计算机技术来支持教育的领域自20世纪80年代起便开始积极发展。然而,只有在过去几十年中,采用包括 AI 驱动技术在内的数字技术在实践中的应用才得到了显著重视(Alam, 2021)。尤其是开放源代码生成性 AI 算法的引入,引发了关于 AI 如何以及应如何在教育领域中使用的重要分析(Baidoo-Anu and Owusu Ansah, 2023;Lund and Wang, 2023)。在这一新兴发展的背景下,过去十年中调研 AIEd 学科中技术进展的综述文章数量也有所增加(见图 4)。为了生成图 4,我们使用 Google Scholar 作为搜索引擎,使用关键词“artificial intelligence for education”、“artificial intelligence for education review articles”及类似组合(使用领域缩写)。在本节中,我们讨论过去5年内发表的技术综述文章的前提,并将本文置于此前已发表技术综述文章的背景下。
在通过 Google Scholar 基于关键词搜索并发表于 2018 至 2022 年间的综述文章中,可以将其分为两类主题:(i)带有分类的技术综述:对研究贡献根据某些区别因素(如问题陈述和解决方法)进行分组的综述文章(Chassignol et al., 2018;Zawacki-Richter et al., 2019;Ahmad et al., 2020, 2022;Chen L. et al., 2020;Yufeia et al., 2020;Huang J. et al., 2021;Lameras and Arnab, 2021;Ouyang and Jiao, 2021;Zhai et al., 2021;Chen et al., 2022;Holmes and Tuomi, 2022;Namatherdhala et al., 2022);(ii)关于挑战、趋势和路线图的展望:综述文章强调某一领域的现状,并对领域中的挑战和未来路线图进行批判性分析(Fahimirad and Kotamjani, 2018;Humble and Mozelius, 2019;Malik et al., 2019;Pedro et al., 2019;Bryant et al., 2020;Hwang et al., 2020;Alam, 2021;Schiff, 2021)。与(i)密切相关的是深入探讨 AIEd 特定子类别进展的综述文章,例如关于早期儿童教育中的 AIEd(Su and Yang, 2022)和在线高等教育中的 AIEd(Ouyang F. et al., 2022)。我们设计本综述文章使其属于分类(i)。我们通过考虑它们在端到端教育过程中参与的时间线来区分 AIEd 语境下的不同研究问题,然后对每个类别中的正在进行的研究工作进行了更深入的综述。据我们所知,通过本文首次以这种积极与被动参与人工智能在教育中之间的区别以及对每个类别中重要研究问题的细粒度综述形式呈现了这一区别(见图 1 示意图)。
在表 3 中,我们概述了过去 5 年(2018-2022 年)发表的带分类的技术综述的背景。
\includegraphics[max width=\textwidth, center]{2025_04_15_3dc005439bdd53236ea5g-06}
图 4\
过去十年中 AIEd 领域发表的综述文章数量。
4. 阶段性参与人工智能方法在教育中的应用
\subsection*{4.1. 积极与被动参与 AI——简介}
在本文引言部分,我们已经概述了教育过程是一个多步骤过程,并涉及时间轴上不同的利益相关者。因此,我们可以清楚地识别出在端到端教育过程中,有两个不同阶段参与 AI 的方式。首先,是教育中 AI 的积极参与——这一阶段的工作旨在设计、策划并确保资源的最佳利用;其次,是教育中 AI 的被动参与——这一阶段的工作旨在确保学生从所参加的课程中获取所需的信息和技能,并在需要时提供反馈。
在本综述文章中,我们通过这两个不同阶段的视角区分了 AIEd 领域中的科学与技术贡献。这种分类方法的重要性体现在以下几个方面:
\begin{itemize}
\item 首先,通过这种分层分类方法,可以衡量在教育情境下利用人工智能解决的问题范围。与个性化辅导辅助和系统相关的 AI 研究确实已经取得了领先,并且在当前是一个成熟的研究领域。然而,利用 AI 覆盖整个端到端教育过程的应用范围非常广泛且正在快速发展的。
\item 其次,这种分类方法提供了一个回顾性概览,展示了在 AIEd 领域中,通过数据和算法的不断改进和丰富所取得的里程碑成果。
\item 第三,由于本综述同时涉及课堂教学与行政管理方面,读者可以从中形成对广泛采用 AI 驱动方法所面临的基础设施和伦理挑战的多维视角。
\end{itemize}
在这些广义分类中,我们进一步细分并分析了使用 AI 解决的研究问题。例如,在积极参与阶段,可利用基于 AI 的算法来确定学生招生、设计课程和排课以及创建课程内容。另一方面,在被动参与阶段,AI 方法可用于设计智能辅导系统(ITS)、进行绩效评估和预测学生成果(见图 1)。这两个阶段之间另一个重要区别在于用于开发模型的数据类型。前者主要使用历史数据或针对现有资源和预期学习成果的估计,而后者拥有来源于当前学习过程的不断增长的数据,从而能更自适应并迅速启动针对性教学干预。
\subsection*{4.2. 积极参与 AI 在教育中的应用}
\subsection*{4.2.1. 学生招生后勤}
过去,尽管有许多研究使用统计或机器学习方法来分析或建模学生招生决策,但它们在实际招生过程中并未发挥太大作用(Bruggink and Gambhir, 1996;Moore, 1998)。然而,面对日益增长的申请者数量,教育机构正越来越多地转向 AI 驱动的方法,以高效审查申请并做出招生决策。例如,德克萨斯大学奥斯汀分校计算机科学系推出了一个名为 GRADE(Graduate Admissions Evaluator)的可解释 AI 系统,该系统利用过去的招生记录上的逻辑回归来估计新申请者被录取至其研究生项目的概率(Waters and Miikkulainen, 2014)。虽然 GRADE 并未做出最终录取决定,但它减少了专家对申请进行全面审核的数量以及每份申请的审核时间。Zhao 等人(2020)利用从学生申请资料中提取的特征以及他们在学习项目中表现的数据来预测新生的潜在表现,并识别出最适合该项目的学生。对于教育机构而言,一个重要的指标是录取率,即被录取学生决定入学的比率。机器学习已被用来预测学生的入学决策,这将帮助机构制定战略性招生决策,以提高其录取率和优化资源分配(Jamison, 2017)。此外,学生是否根据其具体背景和先前的学术表现选择适合自己的专业,也是未来成功的一个指标。机器学习还被用于将学生分类到合适的专业,从而为他们的学术成功铺平道路(Assiri et al., 2022)。
此领域的另一研究方向则是从学生的角度来探讨招生问题,通过预测申请者被某大学录取的概率,帮助申请者根据个人资料以及大学排名更好地定位目标学校(AlGhamdi et al., 2020;Goni et al., 2020;Mridha et al., 2022)。值得注意的是,不少工作发现学生的先前 GPA(绩点)是招生决策中最为重要的因素(Young and Caballero, 2019;El Guabassi et al., 2021)。
鉴于招生决策对学生未来具有重大影响,引发了关于在此类应用中使用 AI 的伦理考量,包括公平性、透明性和隐私等方面的讨论(Agarwal, 2020;Finocchiaro et al., 2021)。除了可能出现优秀申请者被拒或不合格申请者被录取这些明显风险外,这类系统还可能会延续过去人类决策中训练数据中的现有偏见(Bogina et al., 2022)。例如,这些系统可能会对某些人口统计、性别、种族或收入群体表现出无意的偏见。Bogina 等人(2022)主张使用可解释模型来做出招生决策,以及在系统交付给最终用户前进行适当的系统测试和平衡。Emelianov 等人(2020)表明,采用如群体特定录取阈值等人口平等机制能在提高系统公平性的同时增加选择过程的效用。尽管存在公平性与伦理方面的担忧,有趣的是,一项近期调查显示,相对于人类决策(HDM),大学生在招生决策中对算法决策(ADM)的程序正义性和分配正义性评价更高(Marcinkowski et al., 2020)。
\subsection*{4.2.2. 内容设计}
在教育情境下,我们可以将内容定义为:(i)课程、教学大纲或考试的学习内容;以及(ii)课程的时间表/排课。本节讨论用于设计或构建上述两者的 AI/ML 方法。\
(i)学习内容设计:在学习过程开始之前,教育者和行政人员负责为课程确定合适的课程集合、为课程确定合适的内容集合,或为标准化考试确定合适的试题集合。在课程和教学大纲设计中,有大量工作采用传统的系统性和关系性方法(Kessels, 1999),然而在过去十年中出现了若干利用 AI 辅助的课程设计方法。例如,Ball 等人(2019)利用经典的 ML 算法确定在大学专业宣告前影响毕业率的不利因素,并倡导通过调整课程内容以缓解这些因素。Rawatlal(2017)利用基于树的算法在历史记录上对课程的先修结构进行优先排序,从而确定能够有效促进学生进程的路径。Somasundaram 等人(2020)提出了一种基于结果导向教育(OBE)的方法,首先确定学位课程的预期成果(如工作角色/技能),然后利用人工神经网络(ANNs)对课程进行建模,以提出达到这些成果所需的课程。Doroudi(2019)提出了一种半自动的课程设计方法,通过自动筛选低成本、由学习者生成的内容供未来学习者使用,但认为还需要更多工作探索用于筛选具有教学价值的同行内容的数据驱动方法。
对于设计如 TOEFL、SAT 或 GRE 这样的标准化考试,一个基本标准是选择在试卷各份之间具有一致难度水平的题目,以便公平评估。如果教师希望通过设置多套试卷规避抄袭问题,或者设计一系列难度递增的作业或考试,这一点也非常有用。这可以通过问题难度预测(QDP)或问题难度估计(QDE)来实现,即预测正确回答一个问题所需的技能水平。早期问题难度预测通常通过对学生进行预测测试或专家评分来估计,但这种方法代价高、费时、主观且往往容易泄漏或暴露(Benedetto et al., 2022)。
基于专家提取的难度特征的规则算法也曾在 Grivokostopoulou et al. (2014) 和 Perikos et al. (2016) 中被提出来用于自动难度评估。随着数据驱动解决方案的普及,一种常用方法是利用语言特征(Mothe and Tanguy, 2005;Stiller et al., 2016)、易读性分数(Benedetto et al., 2020a;Yaneva et al., 2020)和/或词频特征(Benedetto et al., 2020a,b;Yaneva et al., 2020)与机器学习算法(如线性回归、支持向量机、基于树的方法以及神经网络)结合,进行下游的分类或回归,根据问题设置不同。随着自动化测试系统的发展和大量历史测试日志的可用,深度学习越来越被用于特征提取(词嵌入、问题表征等)和/或难度估计(Fang et al., 2019;Lin et al., 2019;Xue et al., 2020)。注意力机制已被用于对阅读问题中每个句子的难度贡献进行建模(Huang et al., 2017),或者用于建模回忆难度(回答该问题所评估知识的回忆难度)和混淆度(将正确答案与干扰项区分的难度),见 Qiu et al. (2019)。域适应技术也被提出来以减轻为每门新课程提供带有难度标签的问题数据的需求,通过将其与资源丰富课程的难度分布对齐(Huang Y. et al., 2021)。AlKhuzaey et al. (2021) 指出,大部分基于数据驱动的 QDP 方法集中在语言学习和医学领域,这可能是受到大量国际及国家级标准化语言能力测试和医学执照考试存在的推动。\
(ii)排课:教育排课问题(ETP)涉及将课程或考试分配到有限的时间段内,同时满足某些约束条件(例如教师、学生、教室和设备的可用性)。这可以分为三类——课程排课、学校排课和考试排课(Zhu et al., 2021)。排课不仅确保了资源的合理分配,其设计考虑(例如每学期课程数量、每天讲座数量、每天的空闲时间数)对学生出勤行为和学业成绩有明显影响(Larabi-Marie-Sainte et al., 2021)。该领域中流行的方法包括数学优化、元启发式、超启发式、混合方法和模糊逻辑方法。Zhu et al. (2021) 和 Tan et al. (2021) 的工作大多超出了本文的讨论范围(见第 2.2 节)。不过必须指出的是,机器学习常与这些数学技术结合以获得性能更优的算法。例如,Kenekayoro (2019) 利用监督学习来寻求对优化问题的求解评价的近似,这在启发式方法中是一个关键步骤。强化学习已被用于在超启发式方法中选择低级启发式(Obit et al., 2011;Özcan et al., 2012)或在数学优化问题中获取合适的搜索邻域(Goh et al., 2019)。
\subsection*{4.2.3. 内容生成}
内容设计与内容生成的区别在于策展与创造。前者侧重于为一个课程/教学大纲选择和构建最适合实现预期学习成果的内容,而后者则涉及生成课程材料本身。AI 已被广泛用于在学习过程开始前生成和改进学习内容,在本节中对此进行了讨论。
从叙述性或信息性文本中自动生成问题,或自动生成针对分析性概念的问题,在教育情境中正变得越来越重要。基于教学材料的自动问题生成(AQG)可以用于提升学生的学习和理解、评估材料的知识保持程度、并辅助教师从外部来源补充额外材料,而无须耗费大量时间来编写评估题目。它们还可以作为智能辅导系统中的一个组成部分以激发互动并评估学习情况。AQG 本质上包括两个方面:内容选择,也就是“问什么”,以及问题构造,即“如何问”(Pan et al., 2019),传统上被视作两个独立的问题。问题的内容选择通常使用不同的统计特征(句长、词/句子位置、词频、名词/代词计数、形容词的出现等)(Agarwal and Mannem, 2011)或采用 NLP 技术,如句法或语义解析(Heilman, 2011;Lindberg et al., 2013)、命名实体识别(Kalady et al., 2010)和主题建模(Majumder and Saha, 2015)。机器学习也被用于例如对某个句子是否适合充当填空题(缺失部分需要被参与者补全)的题干进行分类。另一方面,实际的问题构造传统上采用基于规则的方法,如基于转换的方法(Varga and Ha, 2010)或基于模板的方法(Mostow and Chen, 2009)。前者在删除目标概念后使用正确的疑问词对选定内容进行改写,而后者使用预先设定的模板捕捉一类问题。Heilman 和 Smith (2010) 采用过生成过多再排序的方法来生成大量问题,然后使用监督学习对其进行排序,但仍依赖人工设计的生成规则。随着神经语言模型的成功和与大规模机器阅读理解数据集的同时发布(Nguyen et al., 2016;Rajpurkar et al., 2016),问题生成后来被表述为一个序列到序列的学习问题,直接将一个句子(或包含该句子的整个段落)映射为一个问题,并因此可以以端到端方式训练(Pan et al., 2019)。也有利用强化学习方法利用文本中的丰富结构信息来解决这一问题的方法(Chen Y. et al., 2020)。虽然文本是 AQG 中最常见的输入类型,但也有针对结构化数据库(Jouault and Seta, 2013;Indurthi et al., 2017)、图像(Mostafazadeh et al., 2016)和视频(Huang et al., 2014)的自动问答系统,并且通常由专家从其生成问题在关联性、语法和语义正确性、有效性、清晰性等方面进行评估。
自动生成与给定问题在难度上相似的练习题,可以极大地帮助教师布置个性化练习题,以避免抄袭同时确保公平的评估(Ahmed et al., 2013)。它还使学生能接触到足够多(且多样化)的训练练习以便掌握底层概念(Keller, 2021)。在这一背景下,数学文字问题(MWPs)——作为激发K-12教育中数学建模技能的传统方式——引起了显著的研究兴趣。关于自动 MWP 生成的初步工作采用了基于模板的方法,将已有问题推广为模板,并在满足该模板的解空间内生成新问题(Deane and Sheehan, 2003;Polozov et al., 2015;Koncel-Kedziorski et al., 2016)。与 AQG 类似,Zhou 和 Huang (2019) 提出利用循环神经网络(RNNs),将数学表达式和主题词编码后自动生成此类问题。沿着这一方向,后续研究侧重于提高主题相关性、表达式相关性、语言连贯性,以及生成问题的完整性与有效性,方法多样(Liu et al., 2021;Wang et al., 2021;Wu et al., 2022)。
在内容生成光谱的另一端是能够基于内容和相关问题生成答案的系统,这些系统包括自动问答(AQA)系统、机器阅读理解(MRC)系统以及自动定量推理问题解决器(Zhang D. et al., 2019)。随着对大型语言模型研究的不断突破,这些系统已取得了令人印象深刻的成果,并被广泛认为是朝向人工通用智能(AGI)的基石,因为它们要求具备复杂的自然语言理解和逻辑推理能力。然而,它们在教育情境下的适用性和有用性仍有待观察。
\subsection*{4.3. 被动参与 AI 在教育中的应用}
\subsection*{4.3.1. 辅导辅助工具}
技术长期以来被用于帮助学习者实现他们的学习目标。尤其关于开发基于计算机的辅导系统的研究始于 Bloom(1984)的发现——接受一对一辅导的学生比只上集体课程的学生的表现高出两个标准差。鉴于其早期起步,智能辅导系统(ITS)的研究比 AIEd 领域中的其他研究领域相对更为成熟。从根本上讲,ITS 设计之间的区别源于关于增强学生知识获取过程的基本假设不同。在关于 ITS 的综述论文中(Alkhatlan and Kalita, 2018),提供了该领域研究的一个全面的时间轴和概览。本文不再重复此前综述在该类别中的发现,而是从基本假设的角度区分 ITS 的设计。我们主要识别出目前研究界重点关注的四个假设——强调辅导员与学生之间的互动、强调个性化、包含情感和情绪因素以及考虑到特定学习风格。必须注意,辅导本身就是一个互动过程,因此该类别中的大多数设计都有基本的互动设置。然而,属于类别(ii)至(iv)的贡献,则在辅导辅助工具设计中以其他概念为焦点。\
(i) 交互式辅导辅助工具:以往用于教学和支持的交互式辅导辅助工具的早期设计基于规则系统,模拟专家教师与学生之间的互动(Arroyo et al., 2004;Olney et al., 2012),或模拟同伴伙伴之间的互动(Movellan et al., 2009)。这些模板规则根据学生输入提供输出。随着时间的推移,交互式辅导系统逐渐转向实时推断学生的状态,并根据推断结果提供精细调整的反馈/指导。例如,Gordon 和 Breazeal (2015) 使用贝叶斯主动学习算法在机器人辅导学生识字时评估其阅读能力。目前,该类别中有相当数量的系统使用聊天机器人作为教师或教学助理的代理(Ashfaque et al., 2020)。这些近期设计能够使用文本、语音等多种数据,并依靠组合了复杂且资源密集的深度学习算法来推断并进一步定制与学生的互动。例如,Pereira (2016) 提出了“@dawebot”,该系统利用 NLP 技术通过多选题小测训练学生。Afzal et al. (2020) 提出了一种基于对话的医学院辅导系统,利用 NLP 和自然语言理解(NLU)来理解用户意图并展示与临床案例相关的概念。
提示构建和部分解生成是另一种保持学生交互参与的方法。例如,Green et al. (2011) 使用动态贝叶斯网络构建了一条提示与相关问题的课程序列。Wang 和 Su (2015) 在其 iGeoTutor 架构中,通过实现搜索策略(例如 DFS)帮助学生掌握几何定理,完成部分证明。Pande et al. (2021) 旨在通过构建使用 NLU 和对话管理系统的对话系统,在小组作业中促进个体和自我调节学习,该系统会促使学生反思所学到的知识,并引导其获得部分解。
对于某些专业和职业培训,例如生物、医学、军事等,实践经验是必不可少的。在不断发展的基础设施支持下,许多此类培训项目现已采用 AI 驱动的增强现实(AR)/虚拟现实(VR)课程方案。由计算机视觉、NLU、NLP、文本转语音(TTS)、信息检索算法驱动的互联模块促进了生物(Ahn et al., 2018)、外科及医学(Mirchi et al., 2020)、病理实验室分析(Taoum et al., 2016)和军事领导力培训(Gordon et al., 2004)中的课程和/或评估。\
(ii) 个性化辅导辅助工具:由于每个学生都是独一无二的,个性化教学和定制化教学内容会对学生的学习成果产生积极影响(Walkington, 2013)——辅导系统中融入了这一点的可以归为个性化学习系统或个性化辅导辅助工具。值得注意的是,在教学过程中,个性化可以通过课程内容的排序、提示和额外资源的展示等方式实现。
学生检视课程主题的顺序对其掌握概念具有重要作用。早期基于计算机的学习工具的一大批评是采用了“一刀切”的方法。为改善这一局限性,采用了个性化教学排序方法。在一些早期的发展中,Idris et al. (2009) 开发了一种利用自组织映射和前馈神经网络等软计算技术模仿教师角色的课程排序方法。Lin et al. (2013) 提出,利用基于学生背景信息训练的决策树来为创造性学习建议个性化学习路径。强化学习(RL)自然适用于这一任务。在这种情形下,根据学生的认知状态(通过知识追踪估计)推导出最优策略(即教学活动序列),以使与学习相关的奖励函数最大化。随着知识传递平台越来越多地转为虚拟化,并生成更多数据,深度强化学习被广泛用于教学序列的优化问题(Reddy et al., 2017;Upadhyay et al., 2018;Pu et al., 2020;Islam et al., 2021)。Doroudi (2019) 对基于 RL 的教学政策进行了系统综述,并总结说,经评估,其超过一半的教学策略优于所有测试的基准。
为了展示一组与学生状态个性化匹配的相关资源,会在知识仓库中执行算法搜索。例如,Kim 和 Shaw (2009) 使用信息检索和 NLP 技术展示了两个框架:PedaBot 允许学生将过去的讨论与当前的讨论线程连接,并且 MentorMatch 帮助学生基于当前需求定制合作。这两个系统均使用来自在线讨论板以及教科书术语表的文本数据。为了减少信息过载,使学习者更容易浏览在线学习平台,最近提出了基于深度学习的课程推荐系统(DECOR)(Li and Kim, 2021)——该架构由基于神经网络的推荐系统构成,使用学生行为和课程相关数据训练。\
(iii) 情感感知辅导辅助工具:研究表明,将学习者的情感和行为状态纳入辅导系统设计可以增强教学效果(Woolf et al., 2009;San Pedro et al., 2013)。Arroyo et al. (2014) 认为,认知、元认知和情感应当利用实时数据进行建模,并用以制定干预策略。一般可以通过传感器数据跟踪学生的细微物理动作(注视、面部表情、姿势等)来推断学生的情感和行为状态。尽管最初这种方法需要传感器数据,但由于伦理和法律原因获取和使用这些数据的限制,“无传感器”方法因此被提出,利用学生自我评价和/或与辅导系统的互动日志数据来建模情感。Arroyo et al. (2010) 和 Woolf et al. (2010) 利用互动数据构建情感检测模型——在这些案例中,首先将原始数据提炼为有意义的特征,然后送入简单的分类模型中以检测个体情感状态。DeFalco et al. (2018) 对比了利用传感器数据和互动数据来在军事训练过程中传递激励提示的效果。Botelho et al. (2017) 使用 RNN 来提升无传感器情感检测模型的性能。在 Harley et al. (2017) 对情感和情绪感知辅导辅助工具的综述中,深入探讨了情感感知智能辅导辅助工具的不同应用场景,如丰富用户体验、更好地策划学习材料和评估、提供激励提示、导航指令等,以及各方向的研究进展。\
(iv) 学习风格感知辅导辅助工具:ITS 领域的另一角度是根据学生的学习风格定制课程内容以达到更好的教学效果。Kolb (1976)、Pask (1976)、Honey 和 Mumford (1986) 以及 Felder (1988) 等提出了不同的学生学习风格分类方法。传统上,通过自我管理问卷来推断个体的学习风格。然而,近来机器学习方法被用来从嘈杂的原始数据中更高效地对学习风格进行分类。Lo 和 Shu (2005)、Villaverde et al. (2006)、Alfaro et al. (2018) 以及 Bajaj 和 Sharma (2018) 利用完成的问卷和/或学生互动及行为数据作为输入,将提取的特征输入前馈神经网络进行分类。还使用无监督方法如自组织映射(SOM)通过精选特征进行自动学习风格识别(Zatarain-Cabada et al., 2010)。针对 Felder 和 Silverman 学习风格模型的分类发现,学生访问在线学习平台不同板块的次数更具信息量(Bernard et al., 2015;Bajaj and Sharma, 2018);而对于 Kolb 学习模型的分类,学生表现和学生偏好特征则更为相关。此外,也有提出了基于机器学习方法的学习风格定制化学习路径设计。在 Mota (2008) 中,先通过问卷确定学习风格并在极坐标图上表示,然后使用神经网络预测针对学生最佳呈现学习目标的布局。但值得指出的是,近年来与其关注于根据预定的学习风格定制课程内容,更多的研究工作开始关注于根据个体整体偏好如何随时间变化来策划课程材料(Chen and Wang, 2021)。
\subsection*{4.3.2. 绩效评估与监控}
知识传递阶段中的一个关键组成部分是通过跟踪学生的知识发展,评估学生绩效并对作业与考试提供成绩和/或建设性反馈,同时确保学术诚信得以维护。与此相反,对教学质量和效果的评估也十分重要,这直接影响着学生的学习成果。基于 AI 的绩效评估和监控工具已广泛用于学习者和教育者两方面。由于大部分评估材料为文本格式,因此基于 NLP 的模型在该领域中占据了主要地位。我们将本部分分为面向学生和面向教师的两种方法,取决于这些应用的直接目标群体。
\section*{(i) 面向学生:}
知识追踪。监控学生学习进程的有效方法是通过知识追踪,该方法对学生知识发展的建模,预测给定当前对知识概念掌握水平下下一题是否能作出正确回答。这不仅帮助学生发现需要改进的领域,也帮助教育者设计针对性的练习、个性化学习推荐和自适应教学策略(Liu et al., 2019)。这类系统的一个重要步骤是认知建模,它基于学生当前的知识状态来模型学生的潜在特征。传统认知建模方法包括因子分析法,通过学习一个函数(通常为逻辑函数)来估计学生知识,该函数基于与学生、课程材料、学习与遗忘行为等相关的各种因素(Pavlik and Anderson, 2005;Cen et al., 2006;Pavlik et al., 2009)。另一研究方向探索利用贝叶斯推理方法,通过基于过往表现记录的概率图模型如隐马尔科夫模型(HMM)更新学生知识状态(Corbett and Anderson, 1994),并有大量研究致力于基于学生能力与练习难度个性化模型参数(Yudelson et al., 2013;Khajah et al., 2014)。基于矩阵分解的推荐系统技术也被提出,用以根据已知分数的学生与习题构成的矩阵预测未来分数(Thai-Nghe et al., 2010;Toscher and Jahrer, 2010)。Abdelrahman et al. (2022) 提供了关于深度学习方法在知识追踪问题上的最新工作的一份全面分类。深度知识追踪(DKT)是最早采用循环神经网络架构对学生潜在知识状态及其时间动态进行建模以预测未来表现的模型之一(Piech et al., 2015a)。沿这一方向的扩展包括引入外部记忆结构以增强知识状态的表达能力(Zhang et al., 2017;Abdelrahman and Wang, 2019)、引入注意力机制来学习过去问题在预测当前响应中的相对重要性(Pandey and Karypis, 2019;Ghosh et al., 2020)、利用习题材料的文本信息来提高预测性能(Su et al., 2018;Liu et al., 2019)以及考虑过去练习机会的时间和频率等因素以纳入遗忘行为(Nagatani et al., 2019;Shen et al., 2021)。最近,基于图神经网络的架构也被提出以更好地捕捉知识概念之间或问题与其底层知识概念之间的依赖关系(Nakagawa et al., 2019;Tong et al., 2020;Yang et al., 2020)。对于编程领域,Wang et al. (2017) 使用一系列嵌入的程序提交来训练 RNN,以预测当前或下一编程练习中的表现。然而,正如 Abdelrahman et al. (2022) 所指出的,在知识追踪领域,如何处理图像、数学方程或代码片段等非文本内容以学习更丰富的题目或知识概念的嵌入表示仍相对较少探索。
评分与反馈。虽然技术发展使得大规模向学习者提供内容变得容易,但对他们提交作业的评分和反馈的自动化仍然是一大难题。虽然自动化评估选择题和填空式题目相对简单,但自动化评估开放式问题(例如简答、作文、报告、代码样本)以及需要多步骤推理的问题(如定理证明、数学推导)同样困难。但自动评估不仅能减轻助教和评卷人员的负担,还能消除评卷间的评分差异,并通过提供实时反馈加快学生的学习进程(Srikant and Aggarwal, 2014)。
在书面文章的环境中,已开发出多种自动作文评分(AES)和自动简答评分(ASAG)系统,以可靠评估学生针对给定题目生成的作文,通常基于专家评分的大量已评分写作样本进行训练(Shermis and Burstein, 2003;Dikli, 2006)。在过去十年中,基于 AI 的作文评分工具从使用手工设计的特征(例如词/句子数、平均词/句子长度、n-gram、单词错误率、词性标注、语法和标点)逐步发展到使用深度神经网络变体自动抽取特征(Taghipour and Ng, 2016;Dasgupta et al., 2018;Nadeem et al., 2019;Uto and Okano, 2020)。这类系统不仅用于提供对作文整体质量的评分,还用于在作文质量的特定维度上提供更细粒度的评估,如结构(Persing et al., 2010)、与题目的契合程度(Persing and Ng, 2014)、论点清晰度(Persing and Ng, 2013)、论点力度(Persing and Ng, 2015)以及论点强度(Ke et al., 2019)。由于每次引入新的题目时获得专家评分的作文开销通常较大,因此跨题目的评分,通过多任务、域适应或迁移学习技术,无论是采用手工特征(Phandi et al., 2015;Cummins et al., 2016)还是自动抽取的特征(Li et al., 2020;Song et al., 2020),都受到相当程度的关注。此外,作文草稿和修改过程中反馈至关重要,因此 AES 系统正越来越多地被采纳进自动写作评估(AWE)系统中,以提供形成性反馈或代替最终分数,从而在教学上具有更高的教育学价值(Hockly, 2019)。例如,已有 AWE 系统用于提供语法、用法和标点错误方面的反馈(Burstein et al., 2004)以及针对学生答题时文本证据使用的反馈(Zhang H. et al., 2019)。
基于 AI 的评估工具在计算机科学教育中也被广泛使用,特别是在编程领域,因为编程具有固有的结构和逻辑性。用于自动评分源代码的传统方法如基于测试用例的评估(Douce et al., 2005)和利用代码度量(如代码行数、变量数量、语句数量)的评估方法虽然简单,但对于评估程序质量而言既不稳健也不有效。
一种更有用的方法是测量学生程序的抽象表示(控制流图、系统依赖图)与正确实现之间的相似性(Wang et al., 2007;Vujošević-Janičić et al., 2013),以实现自动评分。这种相似性测量也可用于构建有意义的代码聚类,并基于其所属聚类传播反馈给学生(Huang et al. (2013); Mokbel et al. (2013))。Srikant and Aggarwal (2014) 从程序抽象表示中提取信息特征,并利用专家评分训练机器学习模型以输出对代码质量的更细致评估。Piech et al. (2015b) 使用 RNN 学习程序嵌入,这些嵌入可以用于将人类对学生程序的评论传播到数量级更多的提交样本。自动程序评估的一个瓶颈是标记代码样本的可用性。为克服这一问题,提出了基于从代码样本中学习问题无关特征的方法(Singh et al., 2016;Tarcsay et al., 2022),或者利用包含人工参与评分标准采样的零样本学习(Wu et al., 2019)。
此外,受到自动语音识别技术成熟的推动,基于 AI 的评估工具已被用于计算机辅助语言学习中对发音错误的检测(Li et al., 2009, 2016;Zhang et al., 2020)或针对学生口语回答未预先指定答案的情景的口语评估(Shashidhar et al., 2015)。数学语言处理(MLP)已被用于自动评估开放性数学问题(Lan et al., 2015;Baral et al., 2021)、数学推导(Tan et al., 2017)以及几何定理证明(Mendis et al., 2017),其中通过预测(或从专家评分中传播)为之前未见的学生解答分配分数,有时还会对部分分进行分配。Zhang et al. (2022) 更通过利用多任务和元学习工具,克服了需要为每个题目分别训练模型的局限,从而提升了在先前未见题目上的泛化能力。
学术诚信问题。绩效评估与监控的另一个方面是确保学术诚信,通过检测抄袭及其他形式的学术或研究不端行为。Foltỳnek et al. (2019) 在其关于文本(例如作文、报告、研究论文)学术抄袭检测的综述论文中,根据抄袭的隐蔽程度将其形式进行分类,从逐字或近似逐字复制到翻译、意念保留抄袭以及代写。与此类似,针对日益复杂的抄袭类型,已开发出各种抄袭检测方法,并普遍采用基于 NLP 和 ML 的技术进行检测(Foltỳnek et al., 2019)。例如,基于词汇的方法使用 n-gram(Alzahrani, 2015)或向量空间模型(Vani and Gupta, 2014)来构造文档表示,之后通过阈值或聚类方法(Vani and Gupta, 2014)来识别可疑文档。基于句法的方法依赖词性标注(Gupta et al., 2014)、词性标签频率(Hürlimann et al., 2015)或对句法树进行比较(Tschuggnall and Specht, 2013)。基于语义的方法采用诸如词嵌入(Ferrero et al., 2017)、潜在语义分析(Soleman and Purwarianti, 2014)、显式语义分析(Meuschke et al., 2017)和词对齐(Sultan et al., 2014)等技术,经常与其他 ML 技术结合以进行下游分类(Alfikri and Purwarianti, 2014;Hänig et al., 2015)。除文本分析方法外,利用引用、数学表达式、图表等非文本要素的检测方法也采用机器学习进行抄袭检测(Pertile et al., 2016)。Foltỳnek et al. (2019) 还提供了如何结合使用传统机器学习算法(树模型、SVM 和神经网络)来构建性能最佳的元系统的全面总结。近年来,各种卷积神经网络和循环神经网络的深度学习模型也被用于抄袭检测(El Mostafa Hambi, 2020;El-Rashidy et al., 2022)。
值得注意的是,人工智能本身也使得抄袭检测变得更加困难。随着像 InstructGPT (Ouyang L. et al., 2022) 和 ChatGPT (Blog, 2022) 这样的大型语言模型的广泛普及,它们能够根据文本提示生成自然流畅的文章和简短回答,甚至生成代码片段,使得不诚实的学习者能够更容易地滥用这些系统来撰写作业、项目、研究论文或在线考试。如何围绕这些系统演化出更好的抄袭检测方法,以及相应的教学和评估策略,仍有待观察。\
(ii) 面向教师:教学质量评估(TQE)是确定教学效果和确保学习目标达成的重要信息来源。这些评估结果可用于通过适当培训和支持改善教师教学技能,并对教师的雇用、终身教职和专业成长产生重要影响。传统上,这些评估通常依靠分析学生评价、教师互评、教师自评和专家评估来进行,这在大规模分析时劳动密集。机器学习和深度学习算法可以通过对学生对教师表现的评论进行情感分析(Esparza et al., 2017;Gutiérrez et al., 2018;Onan, 2020)来帮助进行教师评估,从而提供学生对教师及整体学习体验态度的快照。此外,这些量化的情感和情绪得分已被用于预测学生对教师的推荐分数,以确定影响学生评价的主要因素(Okoye et al., 2022)。Vijayalakshmi et al. (2020) 利用与课程计划、展示、管理和学生参与相关的学生评价来直接预测教师绩效。
除了帮助从教师评价中提取见解外,AI 还可用于利用学习过程中的其他数据来评估教学策略。例如,Duzhin 和 Gustafsson (2018) 使用符号回归方法评估作业结构和协作类型对学生得分的影响,供教师用于自我评估。还有几项工作使用学生评价与课程和教师相关属性的组合来预测教师绩效,并探讨影响学习成果的因素(Mardikyan and Badur, 2011;Ahmed et al., 2016;Abunasser et al., 2022)。
\subsection*{4.3.3. 结果预测}
在课程进行过程中,一种评估学生知识发展的方法是通过已批改的作业和项目来进行。另一方面,教育者也可以从自动预测学生表现和自动识别有辍学风险的学生中受益。这可以通过监控学生与课程模块之间交互模式,并结合学生的人口统计信息来完成。对学生结果的早期预测使得设计有效的干预策略成为可能。目前,大多数 K-12、本科和研究生,如果有必要资源可用,都依赖于计算机和基于网络的基础设施(Bulman and Fairlie, 2016)。因此,当学生与课程模块互动时,会生成大量反映学生状态的数据。早在计算机普及之前,研究人员通常使用调查问卷来衡量学生的参与度、情绪和辍学概率。在本节中,我们将总结 AI 领域中用于提前预测学生结果的研究进展——包括最终表现预测以及辍学预测。
(i) 先验表现预测:提前预测学生表现有多种好处——它允许学生评估自己的课程选择,同时教育者可以据此评估进展并提供额外帮助。故此,已有 AI 方法被提出以自动化这一在教育过程中非常重要的任务。
早期预测学生表现的研究文章利用学生的人口、学术、住所及经济资助信息、学生家长数据和学校转学记录来估计学生完成学位所需的时间(Herzog, 2006)。在相关主题中,研究人员也将表现预测问题映射为预测期末考试成绩的问题(例如优秀、良好、中等、不及格;Nghe et al., 2007;Bydžovská, 2016;Dien et al., 2020)。这种细粒度的预测最终使教育者能够评估哪些学生需要额外辅导。此环境下的基线算法包括决策树、支持向量机、随机森林、人工神经网络等(根据问题设置采用回归或分类)。研究人员通过引入诸如学生参与度、互动情况(Ramesh et al., 2013;Bydžovská, 2016)、外部激励的作用(Jiang et al., 2014)以及以前的表现记录(Tamhane et al., 2014)等相关信息来提高预测器的性能。Xu et al. (2017) 提出,学生的表现或其预期毕业时间应在学生任期内逐步进行预测(使用集成机器学习方法),因为学生的学术状态在不断演变,并可以通过他们的学生记录来追踪。将表现预测推广到混合或在线学习等非传统学习模式,则得益于引入了额外的信息源,如网页浏览信息(Trakunphutthirak et al., 2019)、讨论论坛活动和学生学习习惯(Gitinabard et al., 2019)。
除了探索更具信息量和鲁棒的特征集外,最近深度学习方法已被发现优于传统机器学习算法。例如,Waheed et al. (2020) 使用深度前馈神经网络,并将预测学生成绩的问题拆分为多个二元分类问题,例如:及格与不及格、优秀与及格、优秀与不及格、退学与及格。Tsiakmaki et al. (2020) 分析了迁移学习(即在不同课程上预训练神经网络)是否可以用来准确预测学生表现。Chui et al. (2020) 使用基于生成对抗网络的架构来解决在支持性学习等另类学习范式中训练数据量不足的问题。Dien et al. (2020) 提出在将数据输入一维卷积网络(CN1D)或循环神经网络前,进行广泛的数据预处理,如最小-最大缩放、分位数变换等。关于该主题的机器学习方法综述,读者可参见 Rastrollo-Guerrero et al. (2020) 和 Hellas et al. (2018)。\
(ii) 先验辍学预测:学生在课程完成前退学是一个令人担忧的趋势。特别是在发展中国家,很少有学生完成小学教育(Knofczynski, 2017)。COVID-19 大流行因学校关闭时间不定而加剧了这一情况,导致学习进程中断和追求优质教育的进程受阻(Moscoviz and Evans, 2022)。导致辍学的原因可能多种多样,但能够提前预测出这一风险使得行政人员和教育者能够采取干预措施。为此,已有许多工作采用机器学习算法来预测辍学。
大规模开放在线课程(MOOCs):在辍学问题的背景下,必须特别提及大规模开放在线课程(MOOCs)。尽管 MOOCs 承诺实现教育的民主化,但 MOOCs 最大的担忧之一是注册学生数与实际完成课程的学生数之间存在极大差距——MOOCs 的辍学率非常高(Hollands and Kazi, 2018;Reich and Ruipérez-Valiente, 2019)。然而,为使高等及专业教育更易普及,MOOCs 已成为一种比实验性更为实际的选择。COVID-19 大流行更加强化了这一必要性(Purkayastha and Sinha, 2021)。在我们的文献搜索阶段,我们发现利用来自 MOOC 平台的数据进行辍学预测的贡献非常可观。本小节将涵盖这些工作以及传统学习环境中的辍学预测。
早期教育数据挖掘方法(Dekker et al., 2009)为预测学生退学主要使用了学生记录(即学生的人口统计、学术、居住、间隔年、经济援助信息)和行政记录(例如重大教育管理变动、学生转学记录),以训练简单分类器,如逻辑回归、决策树、贝叶斯网络和随机森林。选择适当的特征集和设计可解释模型非常重要,因为这些模型为后续干预提供信息。为此,研究人员探索了诸如学生先前经历、动机和家庭环境(DeBoer et al., 2013)以及学生与课程的互动(Aguiar et al., 2014;Ramesh et al., 2014)等特征。在增加在线学习组件(对于 MOOC 特别相关)之后,点击流数据和浏览器信息使研究人员能够更好地了解学生在课程中的行为。利用历史点击流数据与当前点击流数据结合,使得 Kloft et al. (2014) 能够使用简单的支持向量机算法每周有效预测辍学率。这类数据还也有助于理解表明参与度下降的特征(Sinha et al., 2014)、社交群体结构的作用(Yang et al., 2013)以及学生讨论板和社区中情感的变化趋势,这些均与学生退学有关。He et al. (2015) 通过引入平滑技术解决了每周预测学生退学概率可能产生的较大波动的问题。另一方面,由于干预资源可能有限,Lakkaraju et al. (2015) 建议给每个学生分配一个风险分数而不是简单的二元标签。Brooks et al. (2015) 考虑将学期内学生活动水平以时间段分箱(二选一:活跃或不活跃),并将这些序列视为 n-gram 用于预测辍学。最近,在利用深度前馈神经网络(Imran et al., 2019)和混合罗吉特叶模型(Coussement et al., 2020)预测学生退学方面取得了进展。
5. 讨论
在本文中,我们调查了人工智能如何贯穿端到端的教育过程中。我们重点介绍了规划阶段和知识传递阶段中具体的研究问题,并回顾了在过去二十年中针对这些问题所取得的技术进展。据我们所知,将教育过程分为积极与被动两个阶段的区分,并随之进行深入技术探讨是本文的一大独创性(见图 1 示意图)。
\subsection*{5.1. 人工智能在端到端教育过程参与的主要趋势}
从图 2 和图 4 可以看出,对于 AIEd 的兴趣不断增长,既体现在技术贡献数量上,也体现在关于该主题的综述文章数量上。需要注意的是,由于疫情相关的无限期停课和向替代学习模式的转变,2021 年和 2022 年的技术贡献数量(假设我们所审查的文章样本具有代表性)在部分程度上可能出现了下降。这导致数据收集、报告和标注工作受到了一系列因素的影响,包括无法直接接触参与者、网络连接不稳定以及调查员需要适应新的培训模式(Wolf et al., 2022)。另一个从图 3 中观察到的重要现象是,大部分 AIEd 研究集中在大学、在线学习平台和 MOOCs 的学习者上——针对学前和 K-12 学生的工作则明显较少。一个值得注意的例外是关于辅导辅助工具的研究,这一类别在不同目标受众群体中获得了几乎均衡的关注。
在所有这些类别中,我们都可以看到一个明显的转变,即从基于规则和统计方法到经典机器学习,再到深度学习方法,从手工设计的特征到自动提取的特征。这一进展与用于训练 AIEd 系统的数据日益复杂密切相关。早期方法主要使用静态数据(例如学生记录、行政记录、人口统计信息、调查问卷和问卷调查),而随着越来越复杂算法的出现,这些方法需要(也因此受益于)更多实时且高量级的数据(例如学生与教师或同伴之间的互动数据、点击流信息、网页浏览数据)。AIEd 系统使用的数据类型也从大多为表格记录发展为更多文本型甚至多模态数据,这一变化得益于具备处理大量此类数据能力的大型语言模型的出现。
尽管像深度神经网络这样数据需求巨大的模型在几乎所有讨论的类别中越来越受欢迎,AIEd 往往仍然面临缺乏足够标注数据来训练此类系统的问题。这尤其适用于小班级或新课程,或者当现有课程或考试需要更改以纳入新元素时。因此,另一个在 AIEd 中出现的新趋势聚焦于通过域适应、迁移学习、少样本学习、元学习等技术来利用资源丰富课程或现有教学/评估内容的信息。
\subsection*{5.2. COVID-19 大流行对教育前沿 AI 研究的推动作用}
COVID-19 大流行可能是近代史上最显著的社会颠覆性事件,它影响了全球超过 15 亿学生(UNESCO, 2022),被认为在教育领域产生了深远的后果,甚至可能带来世代性的挫折(Tadesse and Muluye, 2020;Dorn et al., 2021;Spector, 2022)。由于封锁和社交距离要求急速转向完全虚拟的知识传递方式,大流行期间视频会议软件和社交媒体平台在知识传递中的应用显著增加,同时采用了更多非同步的学习模式。这些替代性沟通媒介往往伴随着较低的学生参与度和满意度(Wester et al., 2021;Hollister et al., 2022)。同时,实际操作课程、实验室和研讨会也相应减少,而这些在某些教育领域中至关重要(Hilburg et al., 2020)。然而,大流行也加速了 AI 基于方法在教育中的采用。试点研究表明,大流行导致 AI 驱动的电子学习平台的使用显著增加(Pantelimon et al., 2021)。此外,向在线学习环境的转型的一个自然副产品是生成了更多来自学习过程的数据日志,这些数据可被用于 AI 方法来评估和促进学生的参与度,并提供个性化反馈。在线教学平台还使整合基于网络的内容、智能互动元素和非同步复习环节变得更容易,从而帮助学生更有效地保持参与(Kexin et al., 2020;Pantelimon et al., 2021)。
几篇近期作品已探讨了疫情驱动的远程和混合教学如何在种族、贫困水平和性别上扩大教育成就差距(Halloran et al., 2021;UNESCO, 2021;Goldhaber et al., 2022)。广泛转向远程学习要求具备适当的基础设施(电力、互联网连接以及支持视频会议和基本文件共享的智能电子设备)以及资源(学习材料、教科书、教育软件等),这对低收入群体构成了障碍(Muñoz-Najar et al., 2021)。即便在类似人群中,家庭作业、收入产生活动和对技术设备的接入不均也会对不同性别的学生产生不成比例的影响(UNESCO, 2021)。此外,远程学习要求学生和教师都具备一定的技术熟练度,这对有学习障碍者可能更为困难。在这种情形下,Garg 和 Sharma (2020) 描述了 AI 在特殊需求教育中如何用于开发自适应和包容性教学法。Salas-Pilco et al. (2022) 回顾了 AI 如何积极影响少数族裔学生的教育,例如通过促进绩效/参与度提升、学生留校、以及增加学生对 STEM/STEAM 领域的兴趣,并概述了在包容性教育中 AIEd 所面临的技术、教学及社会文化障碍。
\subsection*{5.3. 全球采用人工智能支持教育的现存挑战}
截至 2023 年,人工智能在全球各个领域已经渗透到人们生活的各个方面(例如,客户服务聊天机器人、自动信用评分分析、个性化推荐)。与此同时,面向教育领域的 AI 驱动技术正逐渐成为全球的一项实际需求。问题在于,我们在全球范围内能否以安全且包容的方式采用 AI 驱动的教育技术——下面我们讨论一些关于大规模部署现有 AI 驱动教育技术时观察到的障碍。
\subsection*{5.3.1. 缺乏具体的 AIEd 相关法律与伦理指导准则}
正如 Pedro et al. (2019) 指出,除了大部分 AIEd 研究人员集中在技术先进地区,当前 AIEd 平台和应用大多归私人部门所有。由诸如 Coursera、EdX、IBM、McGraw-Hill 以及像 Elsa、Century、Querium 等初创企业资助的研究已经产生了若干稳健的 AIEd 应用。然而,由于这些平台是私营的,其开发和运营过程缺乏公开透明和监管。因此,监护人和教学人员对于这些平台获取的数据、数据存储的隐私和安全以及已部署模型的可解释性方面的关注不断上升。为此,国际、国家和地方的监管政策可以帮助解决最终用户的忧虑。虽然许多技术先进国家在这方面已走在前列(Stirling et al., 2017),但为 AIEd 平台起草通用指导准则仍然是大多数政策制定者的一个新生概念。
\subsection*{5.3.2. 缺乏托管 AIEd 基础设施的公平接入}
教育是最重要的社会平等器之一(Winthrop, 2018)。然而,为了确保更多人能够接受优质教育,必须有 AI 驱动的教学和学习工具来减轻教育者和行政人员的压力(Pedro et al., 2019)。然而,这里存在一个悖论:部署和运营 AIEd 工具的成本往往会使资源有限的社区望而却步,从而扩大了教育接入的不平等(Nye, 2015)。获得电力、互联网、数据存储和处理硬件一直是部署 AI 驱动平台的障碍。为消除这些障碍,必须在本地和全球层面推动变革。虽然国际联盟的形成和对基础设施开发的投资可以为发展中国家引入这项技术,但地方政策的改变也可加速这一进程(Mbangula, 2022)。
\subsection*{5.3.3. 缺乏操作 AIEd 工具的熟练人员}
仅仅在 AIEd 研究和支持基础设施上投入并不足以确保 AI 驱动工具在教育中的长期效用和使用。负责日常使用这些工具的工作人员也必须能够熟练掌握。当前,尤其在发展中国家,对于在教育中使用 AI 存在相当大的顾虑(Shum and Luckin, 2019;Alam, 2021)。主要的担忧涉及数据隐私和安全、工作保障、伦理等问题,这些顾虑反过来又减缓了 AI 在教育中的整合。在这方面,我们必须呼应 Pedro et al. (2019) 的观点:虽然这些担忧确实存在且必须解决,但在我们对 AIEd 研究的回顾中,并未发现任何足以引起教育工作者和行政人员担忧的证据。目前的 AIEd 研究仅是对教师角色的补充,并不会取代教师。而且,在可预见的未来,我们仍需要人类参与来提供反馈并确保这些工具的日常正确使用。
\subsection*{5.4. 结语}
通过本综述,我们确定了在过去二十年里构建计算模型(即算法选择、特征选择等)和训练它们(即数据选择)的范式转变——我们确实越来越倾向于采用既复杂又具有可解释性的框架。由于本综述的范围涵盖了 COVID-19 大流行期间的社会动荡,这为我们提供了一个机会来反思迄今为止提出技术的实用性和鲁棒性。为此,我们讨论了大流行暴露出的问题和局限,以及由此催生出的研究思路。
以联合国大会(United Nations, 2015)为2030年确保人人享有优质教育设定目标为背景,必然会引出一个问题:我们准备好利用 AI 驱动的教育技术工具来支持教育工作者和学生了吗?这一问题仍有待回答。根据我们的调查,我们观察到,在世界某些地区,AIEd 已迅速融入教育部门,而在另一些地区,由于基础设施和人力资源不足,这一进展受到阻碍。全球范围内大规模采用 AI 支持教育的伦理和法律影响也是当前激烈讨论的话题(Holmes and Porayska-Pomsta, 2022)。目前的关键是,在社会经济层面必须做出改变,才能将最先进的 AI 驱动教育技术作为标准教育工具采用,但迄今取得的进展和持续的讨论则给人以乐观的理由。