《The Promise and Peril of ChatGPT in Higher Education: Opportunities, Challenges, and Design Implications》全文翻译
ChatGPT 在高等教育中的承诺与风险:机遇、挑战与设计启示
摘要
越来越多的高等教育学生正在使用 ChatGPT 完成各种教育任务,从查找信息到写作论文。尽管许多大学由于其潜在的危害和非预期后果而正式禁止使用 ChatGPT,但我们仍有必要探讨学生如何利用 ChatGPT 来学习、存在哪些挑战,以及如何更好地在高等教育中利用 ChatGPT。因此,我们组织了焦点小组研讨会和一系列参与式设计会议,参与者包括在大学一学期内积极使用 ChatGPT 的30名学生以及另外5位利益相关者(例如,教授、人工智能专家)。基于这些工作,本文识别出了在高等教育中利用和设计 ChatGPT 时真实存在的机遇与挑战。
1.介绍
利用人工智能(AI)和自然语言处理(NLP)技术构建的大型语言模型(LLMs)的进步正在迅速改变我们的日常生活。由于它们生成的语言和对话在流畅性和自然性方面与人类十分相似,人们在处理各种任务时都会使用并依赖于这些大型语言模型,从平凡的任务(例如,撰写电子邮件 [10])到创造性的任务(例如,撰写小说 [32, 49])。此外,基于 LLM 的聊天机器人还被用于一些专门任务,例如用来给社会孤立者打电话并进行关怀 [37],以及作为公共卫生干预措施 [90]。LLMs 的影响正在不断扩展到各个领域,包括我们的家庭、工作场所和公共机构,例如卫生和教育,这些领域被认为是最具人文特质的场所。\[0pt]
值得注意的是,ChatGPT 的突然出现正在动摇象牙塔以及长期以来的教育基础(例如,教育体系、教育哲学、政策)。人们对不断涌现的新闻报道和文章感到震惊,其中标题如 “ChatGPT 通过了沃顿商学院的 MBA 考试 [107, 108] 和美国医学执照考试” [20, 46]。由于其潜力和能力,ChatGPT 在发布两个月后就吸引了 1 亿用户。这创下了20年来的首次新纪录,甚至超过了互联网问世时的影响 [60]。在学校里,学生开始利用 ChatGPT 完成各种学业任务,包括查找信息和创意、撰写学术报告和论文。
然而,ChatGPT 的这种使用在学术界和大学中产生了前所未有的影响。虽然学生们对其强大与便捷赞不绝口,但大学却忙于应对其非预期后果与可扩展性带来的问题。学生利用 ChatGPT 作弊考试和代写论文,但许多大学及其工作人员尚未制定校内或课堂政策。这一延误引发了学生与教师之间更为激烈的冲突,并加剧了那些(无论是道德或不道德地)利用该工具取得优势的学生与未使用者之间的不公平现象。这破坏了公平性,损害了伦理,严重侵犯了受教育权。值得担忧的是,这些问题持续存在,因为 ChatGPT 不易被检测到。最近,德州 A&M 大学的一位教授错误地指控学生使用 ChatGPT 并在期末论文中作弊,这一事件在 Reddit 上引发了热议 [3, 45].\[0pt]
尽管已有大量关于会话代理(CA)及其实际应用的研究 [11, 12, 19, 23, 38, 52],但面对 ChatGPT 所带来的复杂问题依然难以捉摸和解决。研究探讨了如何通过将 CA 与智能辅导系统(ITS)结合来改进 CA 在教育中的应用,并开发了无数被称作“AI 家教”的 CA,以提升学生的学习体验。然而,这些系统与 ChatGPT 有着本质上的不同。首先,这些 CA 是由在特定学科领域拥有深厚知识的研究人员针对特定学科(例如数学、科学、语言等) [23] 或特定主题(例如,以博物馆解说员的身份解释知识) [19] 的特定目标而开发的。因此,许多此类系统在学术界和实际中都获得了认可 [19, 23],并通过元分析证明了以 CA 形式的 AI 家教可以超越人工家教 [28]。然而,ChatGPT 并非专门为了教授特定学科或传达特定知识而设计的,而是在更广泛的情境下积极被使用。其次,以往的 AI 家教通过利用系统化的学习方法(如提示、提问和反馈)以及混合方法(例如,基于规则或混合方法)进行精心设计,以防止系统出错 [23]。然而,ChatGPT 并非按此方式设计:它既没有主动使用结构良好的学习方法,也没有通过人工干预(例如基于规则的方法)进行校正。因此,ChatGPT 的顺序预测模型基于极其庞大的数据集的统计与关系生成内容,从根本上不同于那些为特定教育情境由人精心设计的 AI 家教。
由于 ChatGPT 面向更广泛的应用环境而被应用于特定的学习目的,因此在大学中它引发了许多严重问题。尽管如此,我们无法将时间倒回到 ChatGPT 发布之前,也无法限制学生对其的广泛使用,因此我们需要弄清楚学生在高等教育中如何以及为何使用 ChatGPT,他们面临哪些挑战与需求,以及如何促进其在教育中的负责任使用。事实上,每当新兴与颠覆性技术(如 Google Alexa [99]、虚拟 [36] 或混合现实 [30]、智能眼镜 [28])问世或即将被用于教育时,人机交互(HCI)社区总会发挥不可或缺的作用,仔细审视学生如何感知和使用这些技术以减轻其有害使用并增加其效益。基于这些以往工作,我们旨在揭示 ChatGPT 在学习中的真实使用情况及其在高等教育中的意义。
为此,我们主要在美国东海岸的一所大学开展了焦点小组(FG)研讨会和参与式设计(PD)会议,其对象为在一个学期内积极使用 ChatGPT 进行教育用途的学生。此外,由于 ChatGPT 的使用也影响其他利益相关者(例如教授、AI 专家),我们还邀请了他们参与访谈和参与式研讨会。通过综合学生与其他利益相关者的观点和经验,我们得出了如下发现:
-
学生认为 ChatGPT 易于使用(例如效率高),并对其用户体验(例如个性化学习)及其在可扩展性方面带来的机遇表示高度满意。
-
学生认为在教育用途上使用 ChatGPT 存在挑战,主要包括算法问题(例如幻觉现象、算法偏见)、人文和社会问题(例如学习效率下降和学术诚信问题),以及其他可用性问题(例如提示工程困难)。
-
基于参与式设计会议,我们提出了以下功能解决方案:1)解决幻觉问题,2)提升可用性,3)提供更少偏见(即更多样化)的观点,4)促进社交互动。
我们对 HCI 领域的贡献如下:
-
我们通过为学生提供在真实大学环境中与 ChatGPT 积极互动的机会,发现了以学生为中心的 ChatGPT 在高等教育中的机遇与挑战。
-
我们提出了宏观且实用的设计思路,可通过整合利益相关者的见解,缓解 ChatGPT 在高等教育中的使用问题,推动以学生为中心的设计。
-
我们阐明了一系列超越设计本身的更广泛启示,其中包括对大学的社会-技术影响。
2.相关工作
2.1 教育中的人机交互
HCI 和教育中的 AI(AIEd)领域的学术群体长期致力于通过应用 AI(例如,教育机器人 [84, 91]、自适应评估 [27])以及利用多种接口(例如语音、文本) [55, 92] 来改善教育。例如,AI 已被用于自适应管理学生的学习 [61]、为教师提供学生的实时分析 [30],甚至预测高等教育中学生的辍学率 [18, 83]。在 AIEd 的这些多样化应用中,ITS 是最突出的工具和成熟的研究领域 [62,74, 75],原因在于其可扩展性、可获取性和个性化特点。大量成功的 ITS——例如 ANDES、AUTOTUTOR、ATLAS 和 Coach Mike 等——针对特定学科(例如数学、物理)或主题(例如基础代数)进行了定制设计,旨在通过各种教学和对话技巧提升学生的学习效果。Graesser 等人 [22] 列举了 ITS 总是具备的三个主要优势:ITS 能够系统地处理学生的操作(即互动性),根据学生的属性、操作和知识水平提供信息(即适应性),并对学生表现的质量以及如何提升其质量提供反馈(即反馈)。
有人认为 ITS 比早期的学习技术(例如计算机辅助教学或基于计算机的培训)更为优越 [22, 80, 87]。传统辅导系统会选择学习任务(即外循环),并专注于学生的答案,通过即时的错误提示给予反馈;而 ITS 则捕捉并引出每个任务内的中间步骤和/或子步骤(即内循环),在每个(子)步骤提供指导,且在事后讨论学生的推理以进行总结 [87]。大多数 ITS 借用了人类家教的一个基本教学技巧——脚手架法,该方法主动“鼓励学生拓展一条推理思路” [87]。以往研究显示,这些强有力的教学和对话技巧(例如,脚手架法以及 ITS 提供的针对学生自我修正的支持)通常使学生能够完成每个学习任务(例如解决问题),而仅基于答案的辅导系统(不太可能提供脚手架支持)则会导致学生在学习中途放弃 [87]。此外,多项元分析表明,某些 ITS 在辅助学生学习和提高表现方面优于其他计算机辅助教学(CAI)系统或大班授课的教师 [19, 80, 87]。VenLehn [87] 曾论证,人类辅导的效果并不如预期;相反,ITS 的效果与人类辅导相当。随后,Steenbergen-Hu 与 Cooper [80] 将重点放在 ITS 在高等教育中的影响上。在对 39 项实证研究以及 22 种用于大学环境中的 ITS 进行元分析后,他们发现 ITS 相较于其他学习方法(例如 CAI 及传统课堂教学)对大学生学习有中等程度的正向影响。此外,他们的元分析显示,ITS 的有效性并不依赖于 ITS 类型、干预条件或学科内容 [80]。
反复证明 ITS 在学生学习中的效果优于大班教学的事实,引发了根本性问题:课堂教育是否仍然需要人类教师?如果需要,那么哪些角色应与 ITS 合作,以最大化学生的学习效果?为解答这一问题,若干田野研究发现,当 ITS 扮演教学角色时,教师能够获得更多时间和资源,以便检查并为需要额外帮助的学生提供一对一指导。然而,也有研究发现一个独特挑战:教师需要监控和管理每个学生的教育活动,因为每个学生都在以 AI 家教个性化的步伐接触不同层次的内容。为解决此类问题,Holstein 等人 [29] 开发了 Lumilo——一款智能眼镜,支持教师通过显示有关学生(即其学习、元认知及行为)的实时信息来协助学习困难的学生。他们进一步发现,当教师与 AI 在课堂上合作时,学生学习和表现会更好 [28]。
尽管 HCI 和 AIEd 的研究者们长期积累了与教育 AI 相关的知识,甚至为课堂中的人机伙伴关系建立了理论基础 [98],但关于人们如何应对和为基于 LLM 的聊天机器人在各个教育领域中的使用做好准备,仍知之甚少。这是因为,尽管以 “AI 家教” 名义出现的 ITS 是量身定制针对特定教育情境,而基于 LLM 的聊天机器人则是为了更通用、更广泛的用途(例如搜索)而商业化构建和使用。因此,基于以往针对特定教育情境的工作,很难完全理解学生在具体学术任务中如何使用此类基于 LLM 的聊天机器人,以及在真实场景中究竟产生了哪些机遇和挑战。正因如此,最近的研究 [ 41 , 72 , 85 ] [41,72,85] [41,72,85] 开始列举使用目前最流行的基于 LLM 的聊天机器人――ChatGPT――的潜在利弊。Kasneci 等人 [41] 曾撰写一篇立场论文,重点阐述 LLM 如何有可能用于生成教育内容、个性化学生的学习以及激发学生更深层次的参与和互动。Tlili 等人 [85] 通过回顾社交媒体上的公开讨论,分析了早期采用者对在教育环境中使用 ChatGPT 的情绪(即正面与负面情感),并通过访谈三位教育工作者展示了潜在的使用场景。然而,这一系列早期研究并未深入与真正使用 ChatGPT 上课的大学生互动,因此很难确切了解学生在自然状态下如何使用 LLM,究竟面临哪些真实(而非潜在的)好处与挑战,以及他们需要哪些新的设计特性。我们的以用户为中心的方法以及在一门大学课程中开展的田野研究——在该课程中所有学生都有机会与 ChatGPT 进行教育目的的互动、与同伴分享经验,并进一步设计必要且改进的 LLM 功能——为 LLM 在教育中的应用提供了更深入、更实用且更以学生为中心的见解。
2.2 大型语言模型
生成型 AI 模型的近期涌现催化了重大变革,不仅通过自动化常规任务,而且在创造性领域也做出了显著贡献。这些大规模模型消耗庞大的数据量,并在一系列任务中不断超过人类表现 [21]。作为这种日益增长能力的一个例证,最近 AI 在艺术和摄影比赛中赢得了一等奖 [24, 109]。这些成就突出表明,生成型 AI 达到或超过人类努力的潜力已经开始实现,这预示着多个领域将发生重大变化。在这一不断演变的生成型 AI 领域中,于 2022 年 11 月发布的 ChatGPT 对 NLP 领域产生了重大影响。通过利用海量文本数据集以及一种名为“基于人类反馈的强化学习”(RLHF)[65] 的人参与反馈系统,ChatGPT 将 NLP 的能力提升到了前所未有的高度。它生成的文本不仅能高度还原人类交流的风格,而且在信息检索、摘要、翻译、问答和情感分析等基于文本的任务中均表现出人类水平的熟练度。因此,ChatGPT 成为了有史以来增长最快的消费者应用,这对于任何基于 AI 的解决方案而言,都是一个值得注意的里程碑 [31, 104].
因此,近期的 HCI 研究将 LLM 的应用扩展到了诸如与 LLM 联合写作 [15, 32, 49] 和为社会孤立或边缘化的个体提供健康干预 [37, 90] 等任务。研究还进一步探讨了用户在与 LLM 互动时面临的挑战(例如提示工程) [94, 101],但关于 LLM 在学术界的渗透以及它将如何改变教育中各个方面的问题 [ 44 , 82 ] [44,82] [44,82] 尚未被深入研究以回答:1) 大学生究竟是如何在自然状态下使用 LLM 的,2) 学生在特定教育情境中面临哪些机遇和挑战,以及他们在体验 ChatGPT 后有哪些独特需求。与之前关注商业 AI(例如 Alexa)及以用户为中心设计的 CHI 研究 [7, 48, 71, 99] 不同,我们探讨了学生在高等教育中的真实体验和看法,并提出了以学生为中心的解决方案以应对他们的挑战。
3.方法
我们的研究旨在发现本科生面临的挑战与机遇,并为其设计以学生为中心的解决方案进行缓解。在我们开展研究时,美国大多数大学均已出台政策,全面禁止在课堂或家庭中以任何教育目的使用 ChatGPT。因此,对使用 ChatGPT 完成教育任务的学生进行用户研究是不道德且危险的,因为被招募的学生可能违反了校规。出于这一原因,我们选择在一所美国大学的一门经认证的本科 AI 课程中开展用户研究,该课程允许共计 30 名学生(P01-P30)使用 AI 工具(例如 ChatGPT-3.5、DALL-E2)来进行合法的教育用途。实验发生在 2023 年春季学期,始于一月 —— 距离 ChatGPT-3.5 首次发布大约一个月。对于其他更新或付费版本(例如 ChatGPT-4 或 Pro)的用户调研不在本研究范围内,因为在本研究开展时,ChatGPT-3.5 是最新版本,而学生无法支付其他版本的费用。
我们的方法自然遵循了该课程为期一个学期的三阶段课程安排(见 3.1)。该课程与研究已获得大学和伦理审查委员会(IRB)的正式许可,并且作者多次确认研究中没有涉及学生的敏感内容。鉴于小班规模及潜在的意外去匿名化风险,我们决定不收集或公布学生的任何个人信息(例如年龄、性别、种族)。我们认为使用个人信息是没有必要的,因为用社会经济地位来比较对 ChatGPT 的看法并非本研究范围。我们严格遵循了 IRB 审查的研究和伦理协议,并且所有学生均同意公开其作业(例如演示、设计作品)用于研究目的。所有学生均积极参与了课程并成功完成学期任务,从而获得学分。
3.1 程序
我们认识到本科生通常对 AI 缺乏深入理解,并且在使用 AI 工具(例如 ChatGPT-3.5 或 DALL-E2)的设计经验也不足。于是,该课程的最初目标就是给予学生充分机会熟悉 AI 技术以及与参与式设计过程相关的基本设计原则 [42, 76, 100]。基于这些经验,课程目标是建立对 AI 的更好理解并促进负责任地使用 AI。\
3.1.1 第一步:使学生作为用户熟悉 AI(4 周)。第一阶段的课程设计为一系列实践性、指导性体验,包括一系列精心安排的作业和小型项目。
动手体验:为了提升学生的熟练度并加深对 AI 的理解,实践练习使学生能够与最先进的文本生成(即 ChatGPT)和图像生成 AI 模型(例如 DALL•E2、Stable Diffusion 以及 Midjourney)互动。教师提供了关于如何使用 AI(例如,提示工程技巧)以及 AI 技术最佳实践(例如,ChatGPT 的创新应用、在线共享的优秀提示案例分析)的全面讲解。随后,学生可以将 AI 模型应用于他们选定的各类主题,或参与预先定义的任务以增强他们的 AI 体验。
例如,在课程初期,学生提交了个人论文,并就将 ChatGPT 融入课堂环境的优缺点进行了辩论。随后,他们有机会通过比较 ChatGPT 生成的论文与学生协作撰写的论文,直观观察 AI 的能力。值得注意的是,没有任何学生所写的评论超过 ChatGPT 所生成的评论。另一个任务中,学生被要求撰写一篇 500 字的短篇小说大纲。该作业让他们探讨了与 ChatGPT 合作的各种方法,例如将模型用于构思或对他们手工撰写的大纲进行实质性修改。学生随后对比了有无 ChatGPT 协助的成果,从中获得了对 AI 在创造性工作中能力和局限性的宝贵见解。
研究作业:教师通过有针对性的作业引导学生探索和研究由 AI 模型生成的他们认为有趣或值得关注的文本或图像输出。学生的任务是学习生成这些输出的具体提示工程技巧,并在此基础上尝试复制这些输出。该教育方法使学生认识到有效提示工程的复杂性和挑战,同时也成为学会如何与 AI 模型互动以生成所需输出的实践课程。这些作业使学生对 AI 能力有了更为细致的理解,突显了精确的人机互动对于达到特定目标的重要性。
创意竞赛:为了促进与 AI 的有效且愉快的协作,组织了两个不同的创意竞赛【参见图 1 和图 2 中学生的设计作品】。第一个竞赛 “迷你艺术竞赛” 邀请学生使用先进的 AI 图像生成器创作自己独特的艺术作品。为实现期望成果,学生查阅了现有艺术作品以寻找灵感,研究了提示工程技巧,并试用了诸如 DALL•E2、Stable Diffusion 和 Midjourney 等多种 AI 图像生成器。每位学生提交一件由 AI 生成的艺术作品,之后由同学进行同行评审。评分最高的作品获得额外加分。
第二个竞赛题为 “成为一位作家竞赛”,要求学生利用 ChatGPT 生成文本以及 AI 图像生成器生成插图,共同创作一篇短篇、图文并茂的故事。学生可以自由选择任何体裁和故事情节。与 ChatGPT 共同合作,他们详细构思角色、背景和关键事件,进而生成一篇大约 1,000 字的完整故事。AI 图像生成器则被用于制作故事插图。最终成果是一部 10 页的短篇故事书,每页都包含一段简短的文字和一幅插图。
在这些竞赛过程中,鼓励学生设计和执行自己取胜的策略以竞争加分。这样的安排不仅提升了他们使用 AI 完成创造性任务的能力,而且使他们对高效的人机互动有了更深层次的理解。\
3.1.2 第二步:使学生熟悉 AI 相关概念与设计(8 周)。尽管与 AI 的动手实践非常重要,但对 AI 的理论理解及设计经验也对产生富有意义的参与式设计成果至关重要。课程第二阶段结合了 1)讲座和 2)设计练习,深入探讨了广泛的 AI 话题,总结如下:
讲座:讲座涵盖了一系列前沿主题,包括但不限于机器学习(ML)与深度学习(DL)的基础、AI 中的伦理考量、算法偏见与公平、AI 隐私问题、可解释性 AI 与算法透明度、生成型 AI、AI 时代的工作未来以及 AI 在组织环境中的应用。每个主题以一到三节 50 分钟的讲座进行(详见附录 A.1.1)。
设计练习:为弥补在设计人机交互时方法论与经验上的不足,课程融入了专门的设计练习(例如,设计在人类与 AI 共同参与的创意写作过程中最优协作流程和方法)。这些练习旨在加深学生对在人机交互系统设计时应考虑 HCI 方法的理解。
我们选择了一个学生较为熟悉的主题:在 “成为一位作家竞赛” 中所涉及的人机合作写作。这样做是为了帮助学生专注于学习和体验设计流程。学生被分成小组(每组 4 至 5 人),任务是在创意写作全过程中设计人与 AI 最佳的协作流程与方法,流程分为四个阶段:构思、列提纲、写作和修改。每个团队设计出详细的流程以及人和 AI 各自应扮演的角色,以达成创意写作的人机最优协作。这些练习最终以展示和讨论形式结束,学生们分享他们的发现和见解。\
3.1.3 第三步:参与式设计会议(4 周)。在最后阶段,目标为:1)明确识别 ChatGPT 在高等教育环境中所带来的机遇与挑战;2)提出针对这些机遇的设计解决方案,使其更贴合教育情境,从而最大化 ChatGPT 能为高等教育带来的益处。
头脑风暴会议:学生的任务是头脑风暴讨论 ChatGPT 在高等教育中的机遇与挑战。这些课后作业要求学生反思他们与 ChatGPT 的个人使用体验,并在可能的情况下提供真实案例以佐证观点。随后,在课堂上,学生被分为 4 至 5 人的小组进行讨论、修正和优先排序。通过讨论和组内投票的协作过程,每组生成了一个优先排序后的机遇与挑战清单。全班随后进入主题分析阶段 [8],期间教师与学生共同参与,识别出各组反复优先考虑的观点。此外,还进行了定性分析,以识别那些在小组报告中未频繁提及但被认为足够重要而应当包含的观点。结果,全班综合出了一份统一报告,详细说明了 ChatGPT 在高等教育中的机遇与挑战,汇集了学生和教师的集体见解与经验。
创意草图会议:本环节的目的是提出各种设计解决方案,以期为 ChatGPT 在未来的教育应用取得成功奠定基础,这些方案基于头脑风暴会议中确定的机遇与挑战展开。为此,每个小组从汇总的主题列表中自由选取三个主题(例如,个性化学习体验、提示工程困难、隐私问题),并为这些主题提出相应的设计方案。他们首先清晰地陈述每个主题存在的问题。例如,ChatGPT 的哪些特性阻碍其提供个性化学习体验,或者 ChatGPT 拥有哪些本可促进多样性、公平性和包容性的特性却未能被充分利用?随后,他们针对每个问题提出具体的设计思路。最后,\
他们绘制出用户体验草图,展示如何将这些设计应用于实际开发(参见图 3 中学生的草图)。在整个设计过程中,教师实时提供反馈和指导,帮助学生创作出一系列问题陈述、设计概念及可行解决方案。
专家会议:为丰富学生自主探索的成果,我们还邀请了五位外部专家(P31-P35),包括 AI 工程师与学者。在审阅学生的发现之前,这些专家首先被邀请自由分享他们对 ChatGPT 在高等教育中所面临机遇与挑战的看法。之后,我们向他们展示了学生对这些主题整理的见解,专家们随后提出反馈,选出关键设计主题,并给出具体的改进建议。此会议通过引入宝贵的外部视角,丰富了全班的结论,为 ChatGPT 在高等教育中的潜力提供了更为全面的视角。
3.2 数据分析
通过基于课程的活动,前两位作者收集了大量学生生成的数据,包括关于 ChatGPT 在高等教育中机遇与挑战的报告、个人或团队报告、草图、最终展示、以及焦点小组设计活动和竞赛提交。我们采用了定性方法 [ 13 , 16 ] [13,16] [13,16] 和主题分析 [8] 对所有学生生成的数据进行检查,并识别出相似主题和类别。基于归纳和迭代的过程,我们将相似的主题(例如机遇与挑战)归类,并与学生所提出的设计思路匹配。我们反复审视学生的作业(例如报告、展示成果、设计草图),直至将其与设计方案对应起来,最终达成一致的主题。随后,我们使用主题分析及归纳、迭代的方法对专家访谈进行分析,因为这类研究的性质与定性研究相似。我们没有测量编码者间一致性,这与类似定性及参与式设计论文 [25, 69, 99] 的做法一致,并且遵循了 [9] 中所提出的理由。
4.研究发现
我们的发现分为三部分:机遇(4.1)、挑战(4.2)以及共设计结果与设计启示(4.3)。
\subsection*{4.1 机遇}
在本节中,我们提出了从学生确定的机遇中归纳出的三个广泛主题:可用性(4.1.1)、用户体验(4.1.2)以及可扩展性(4.1.3)。\
4.1.1 可用性。效率。所有小组均称赞 ChatGPT 回答学生问题的速度,形容其为“即时”、“迅速”以及“快速”,并认为它提高了学生在搜索与学习过程中的生产力与效率。令人惊喜的是,他们自然而然地将 ChatGPT 的能力与现有搜索引擎甚至人类(例如教师、同事)的能力进行比较。一个类似的例子是:“ChatGPT 比与人类合作更快、更有效。该 AI 可以不间断地为学生提供即时反馈,从而提高了学生的生产力以及作品质量。”尤其是,
表 1:从学生与 ChatGPT 在高等教育互动中识别出的机遇与挑战总结表
\begin{center}
\begin{tabular}{|c|c|c|c|}
\hline
机遇 & & \multicolumn{2}{|l|}{挑战} \
\hline
\multirow[t]{5}{*}{可用性} & 效率 & \multirow[t]{5}{*}{算法问题} & 幻觉 \
\hline
& 可用性与访问性 & & 算法偏见 \
\hline
& 互动性与易用性 & & 缺乏透明性和可解释性 \
\hline
& \multirow[t]{2}{*}{简洁性与精炼性} & & 缺乏时效性 \
\hline
& & & 能力受限 \
\hline
\multirow[t]{3}{*}{用户体验} & 个性化学习体验 & \multirow[t]{3}{*}{人文/社会问题} & 学习减少与学术诚信受损 \
\hline
& \multirow[t]{2}{*}{隐私感} & & 缺乏人文创造力 \
\hline
& & & 隐私问题 \
\hline
\multirow[t]{2}{*}{可扩展性} & 多样性、公平性与包容性 & \multirow[t]{2}{*}{可用性问题} & 提示工程困难 \
\hline
& 可扩展性 & & 缺乏动手实践 \
\hline
\end{tabular}
\end{center}
FG03 解释了他们为何认为使用 ChatGPT 能提高学习效率和生产力,他说:
\begin{displayquote}
“我和我的同伴们看到 ChatGPT 在回答关于编程的 ‘为什么’ 问题时非常有用。我们发现在询问错误代码的含义、为何某段代码无法执行,甚至在任何编程语言中查询基本语法时,它都非常有用。这尤其有利,因为它省去了上网查找答案、等待下课提问或者等待教授通过电子邮件回复的时间。”
\end{displayquote}
可用性与访问性。所有小组都喜欢能够随时与 ChatGPT 交流这一特点,并用了类似的表达:“ChatGPT 24/7 可用”以及“对于学生来说,ChatGPT 24/7 都可访问”。参与者自然将 ChatGPT 的可用性与繁忙的教授进行了比较,称道道:“这对学生来说非常有利,因为学生只能在教授的办公时间或上课时才能获得帮助。对学生而言,获得即时帮助是 ChatGPT 的一个非常宝贵的特点。”
互动性与易用性。由于学习本质上是一个互动过程,学生们喜欢 ChatGPT 的对话式格式,这使得它易于使用且更具互动性。FG06 解释道:“ChatGPT 比用人类来提供反馈更容易,因为 ChatGPT 能立即提供反馈。”此外,作为互动性的一部分,学生们强调了 ChatGPT 回答后续和连续问题的能力。例如,FG01 说:“ChatGPT 具有对话式格式且设计易懂,这使得它比依赖互联网和教师解答问题更有效。”同样,FG04 描述道:“ChatGPT 可以作为互动学习助手使用,它能够回答学生在完成作业或学习过程中提出的额外问题。”
简洁性与精炼性。许多学生对 ChatGPT 能够简化复杂概念、并使用简单词汇或语言表示感到满意。具体来说,学生们表示:
“ChatGPT 往往给出比人类和某些互联网资源更清晰、不冗长的答案。”\
“ChatGPT 帮助我以非常简单的方式理解了二次方程公式。”\
“ChatGPT 使用简练的语言,并知道如何以最简单的方式解释概念。”\
4.1.2 用户体验。个性化学习体验。许多学生认为 ChatGPT 的反馈是针对他们的问题而个性化定制的。例如,FG02 指出:“ChatGPT 为学生提供个性化反馈。这很有益处,因为它给予每个学生具体针对其作业或提问的客观反馈。”此外,学生们喜欢 ChatGPT 能根据他们的偏好或兴趣提供灵活反馈。FG05 说道:
“你可以按照自己想要的方向扩展或缩小学习话题。根据我的经验,ChatGPT 非常灵活,因为如果我不喜欢某个内容或对某事感到困惑,我可以向 ChatGPT 重新提问或给出不同提示以更好地理解答案或获得更好的答案。”
此外,学生们认为这有助于根据不同的学习风格和方法提升个性化学习。FG02 说道:“ChatGPT 能够以吸引不同学习者的方式进行教学,这使其比教师更为有效。”同样,FG04 提到:“ChatGPT 能够识别学生的优点和不足,从而使课程更具个性化。”
客观性与公平性。令人惊讶的是,许多学生认为 ChatGPT 在对待学生和传递信息时是客观、公正、且始终如一的。他们批评人类在主观情感上容易产生偏见,而 ChatGPT 则不存在这种问题。尤其,我们发现学生对于教授对特定学生的关注或宠爱非常敏感。FG03 说道:
“ChatGPT 更公正,因为它不是人类。ChatGPT 不是人意味着它不会在班级中偏袒某些学生……人类自然会偏袒,所以教师会有偏爱的学生,对他们更好地对待或投入更多时间。”
此外,我们发现学生重视大学讲座中无偏见且多样化的观点。FG05 描述其教育经历时说:
“ChatGPT 看起来比某些人以及那些在网上撰写充满情绪文章的人更为客观。尽管 ChatGPT 存在偏见,但有些教师在讲课时过于情感化和主观,许多教师只希望讲授自己的观点,并常常强加于学生。”
类似地,FG04 说:“这消除了人类可能带来的部分偏见,因为有时教师在讲课时表达出不同的想法,这可能会让学生困惑。因为教师彼此之间在信念上可能不一致,所以同一年级的学生可能根据教师不同而学到不同的东西。”因此,许多学生认为“随着时间的推移,ChatGPT 有可能成为人们日常浏览和寻找无偏见观点的首选工具”,并且“ChatGPT 为学生提供无偏见且客观的指导。”
隐私感。我们发现学生对于被教授或同学评判非常敏感,这与教授偏爱某些学生的情况类似。因此,学生觉得向 ChatGPT 提问时会更有隐私感。FG02 描述道:
“ChatGPT 能为那些更喜欢私密学习体验的学生提供隐私感。学生可能会被某些教师吓到或觉得受到评判。很多学生害怕问出别人认为愚蠢的问题,担心尴尬。使用 ChatGPT,学生可以随意提问,而不会担心被评判或感到尴尬。”FG01 说:“上课时如果学生有问题可以向 ChatGPT 求解答,这样既不会打断讲课,也能揭示讲座中的不足供学生指正。”\
4.1.3 可扩展性。多样性、公平性与包容性。许多学生认为 ChatGPT 可促进高等教育中的多样性、公平性与包容性。尤其是,他们认为 ChatGPT 对于残障学生非常有帮助,他们说:
“对于学校来说,与残障学生合作使用 ChatGPT 更容易,因为它能提供比人类更多的帮助。[在未来],ChatGPT 可为有听力或视力障碍的学生提供文本转语音或者反之亦然。此外,它还能为讲座提供实时字幕或手语翻译。它可以根据学生的具体残障情况进行调整,这在真实的课堂中是教师难以做到的。”
此外,学生们强调了 ChatGPT 在经济上的优势以及对需要免费资源的学生所能产生的巨大影响。多个小组赞扬道:“ChatGPT 是免费的,而许多程序要求交费。教师授课需要支付费用,所以使用 ChatGPT 来教学能节省这部分开销。ChatGPT 甚至有可能用作免费辅导工具。”
可扩展性。我们发现像 ChatGPT 这样的 LLM 与其他教育技术插件具有协同效应。事实上,许多参与者预期无限的潜力和机会可以通过扩展 LLM 与其他教育工具的结合来实现目的,如摘要、清晰解释、笔记记录、 Q & A \mathrm{Q} \& A Q&A 等。例如,FG05 说道:“ChatGPT 可用于虚拟课堂,并作为教学辅助工具。一些学生在线学习遇到困难,但 ChatGPT 可帮助进一步解释概念(或进行摘要)。”
尤其是,学生希望 ChatGPT 能与在线视频学习或远程学习(例如通过 Zoom 进行视频会议工具)互联,这样他们可以请求 ChatGPT 对概念进行总结、详细说明或简化内容、举出例子,或帮忙记笔记。FG03 赞扬 ChatGPT 在记笔记方面的作用,说道:
“当你向 ChatGPT 提问并得到回答时,该回答会以文本形式记录并保存下来。这意味着用户/学生不需要重复敲打笔记,因为 ChatGPT 已经提供了这些内容。学生可以将这些信息复制到笔记中进行学习。学生不必担心丢失这些信息,因为 ChatGPT 要求用户注册账号并保存所有数据。我有时在记笔记时跟不上教师的说话节奏,所以让 ChatGPT 将所有内容写出来非常方便,也帮助了那些打字较慢的学生。”
\subsection*{4.2 挑战}
在本节中,我们提出了学生发现的三个广泛挑战主题:算法问题(4.2.1)、人文和社会问题(4.2.2)以及可用性问题(4.2.3)。\[0pt]
4.2.1 算法问题。幻觉现象。学生经常提到 ChatGPT 的最关键问题是其产生的幻觉现象,即“生成的内容毫无意义或不忠于所提供的原始内容” [64]。许多学生报告说,ChatGPT 曾给出听似合理但其实虚假的故事,或提供虚构来源。FG02 评论道:
\begin{displayquote}
“每当要求 ChatGPT 拉取一篇文章时,它往往拉取一篇不正确或不存在的文章。如果文章根本不存在,就会让人疑惑信息的来源。这相比使用互联网(在互联网上可以引用用户查到的网页信息)就是一个缺点。”
\end{displayquote}
FG04 担心 ChatGPT 的幻觉现象可能导致学生相信虚假信息。FG03 指出:“ChatGPT 回答问题不正确。由于该机器训练数据有限,可能会提供错误信息,引发谣言传播以及理解不足。教师将不得不重新教授学生从 ChatGPT 那里学错的内容。”
算法偏见。许多学生反复报告 ChatGPT 产生的算法偏见,这与前面提到的幻觉现象不同。幻觉可能使学生相信虚假或不存在的知识,而算法偏见则使学生接触到有偏见的信息。具体来说,在创意故事写作环节中,学生发现了关于算法偏见的有趣例子——也就是说,ChatGPT 在创建角色时通常会默认某一特定种族(例如,如果学生输入“美国橄榄球队的四分卫”,ChatGPT 会将角色设为“白人男性”;如果角色是黑帮分子或擅长说唱,则建议为“黑人男性”;如果角色聪明或书呆子化,则设定为“亚洲人”)。FG06 强烈论证道:
“ChatGPT 回答中容易产生偏见,因为它所训练的数据中包含偏见信息。这可能会造成问题,因为如果学生未意识到这些偏见,他们或许无法基于 ChatGPT 提供的信息做出正确决策。这还可能加剧高等教育中原有的偏见。”
高等教育的目标不仅在于教授特定学科,更在于提升学生在文科、文化研究、政治观点等方面的批判性思维能力。因此,ChatGPT 若加强固有偏见和偏颇观点,问题尤为严重。
缺乏透明性和可解释性。令人惊讶的是,我们发现部分学生曾测试过 ChatGPT 如何评估并对他们的学校作业提供反馈,但由于缺乏透明性和可解释性,他们对回答或反馈感到失望。FG01 评论他们的负面体验道:
“ChatGPT 并未明确展示它是如何形成答案或反馈的。对于学生来说,理解为何会得到某种分数和反馈非常重要,但这是 ChatGPT 无法提供而人类教师能做到的。ChatGPT 缺乏透明性,会使学生难以理解自身优势和不足,从而难以改进作业。”
其他学生进一步解释,由于缺乏透明性和可解释性,他们对 ChatGPT 产生了不信任。具体而言,FG01 表示:“有时很难理解 ChatGPT 回答背后的决策过程。透明性非常重要,因此不了解这一决策过程可能会对学生的信任与问责构成挑战。”尤其在高等教育环境中,学生认为了解 ChatGPT 为何会呈现或优先选取某些来源至关重要。FG02 评论说:“AI 对于它如何选择信息的过程了解有限;这种不清晰可能会引发关于模型如何优先选取某些参考资料而非其他参考资料的问题。例如,它可能会选择一个更符合论点的统计数据,而不是更权威、更客观的。”
此外,学生认为 ChatGPT 缺乏透明性和可解释性不仅可能侵犯学生隐私,还可能破坏学术诚信。FG06 解释说:“有限的可解读性,即 ChatGPT 用来呈现信息的处理过程,可能使学生难以理解。这也与学术诚信和学生隐私信息等责任问题相关。”
缺乏时效性。许多学生对 ChatGPT 对近期事件知识有限表示不满,因为它过于依赖以往的训练数据。由于获取最新知识或跟上新趋势对于高等教育尤为重要,因此学生认为 ChatGPT 时效性不足是一大致命弱点。FG02 评论道:“往往 ChatGPT 可能信息不更新,不能提供最新的课程材料。ChatGPT 可能也不了解突发事件。”
能力受限。多位学生发现 ChatGPT 缺乏对对话语境或微妙含义的理解。FG03 说道:“ChatGPT 缺乏语境和理解能力,导致它在回答需要人类输入的较难问题时显得力不从心。”FG05 说:“它在处理幽默时显得困难,并不能真正理解细微差别。例如,如果你给 ChatGPT 讲个笑话,它可能会告诉你笑话为何好笑,但却无法创作出独具一格的笑话。”学生们还认为“ChatGPT 不能处理多任务”,并且“这个工具最适用于单一情境下使用,一次只能处理一项任务。”FG06 举例道:
“例如,如果你反复要求它缩短某些段落,它会对全部段落进行编辑,最终呈现出一种奇怪的格式,把段落浓缩成项目符号。同样,如果你要求模型先进行编辑、再重写、再起草新段落,它很可能会在其中一项任务上失败。这是模型功能性的问题。”
我们发现,学生对 ChatGPT 在解释需要较高专业知识的特定主题或复杂知识时遇到困难感到困惑。例如,FG03 分享道:“ChatGPT 从不同来源获取了大量信息,因此这个 AI 系统并非某一领域的专家。它不能回答对某一特定领域提出的极深层次的问题,主要只能回答基础问题。”
出人意料地,许多学生批评 ChatGPT 能生成或处理的文字数量有限,或者能处理的 prompt 输入字数有限。FG01 抱怨道:“ChatGPT 不能审阅过长的文档并回答问题。由于输入范围有限,如果学生希望整体审阅或修改他们的长篇论文,就必须分部分进行。”学生还认为 ChatGPT 在生成较长但结构良好的内容时存在困难。FG06 分享了自己的经历:“它非常擅长生成摘要或列表,但在生成较长、结构化的故事时就显得困难,尽管生成的文本通常是合理且语法正确的。”\
4.2.2 人文与社会问题。学习减少与学术诚信受损。我们发现学生担心 ChatGPT 的便捷性会导致深度学习、批判性思维和创造力严重下降。尤其是,许多学生预计自己会利用 ChatGPT 来完成作业,而不是用它来真正学习。P07 指出:
\begin{abstract}
“ChatGPT 使用方便,能轻松完成学生的作业,这可能导致学生越来越依赖 ChatGPT 来完成工作,从而放弃自己亲自完成作业。我知道当我使用 ChatGPT 获取答案时,我的创造力和思考努力远不如以前。”
\end{abstract}
一些学生担心过度依赖 ChatGPT 进行学习:“对于学生来说,很可能会对这个 AI 平台形成过度依赖。虽然 AI 生成作品的数量和质量显著提高,但从长远来看,如果学生不自我挑战,这可能会影响最终产出的质量。”
社交互动减少。许多学生担心过度依赖 ChatGPT 可能会减少与教授和同学之间的社交互动,从而对他们的心理健康造成不利影响。他们表达了这样一个担忧:社交互动减少可能会削弱学生的沟通技能、恶化心理健康,并减少与同伴和教师进行小组合作的机会。令人惊讶的是,学生们特别强调了减少社交互动对心理健康可能产生的负面影响。P15 说道:
\begin{displayquote}
“使用 ChatGPT 而非通过人与人之间的学习,将会减少社交互动,并可能对学生的心理健康造成负面影响。对于某些学生而言,上课可能是他们一天中唯一的社交时间,而社交是人类的一项重要需求……我知道我喜欢与他人合作,这能提升我的心情。”
\end{displayquote}
缺乏人文创造力。许多学生批评 ChatGPT 缺乏情感支持,这是一个缺点,因为教师的积极情感常常激励学生更多地探索和学习。FG04 描述道:“ChatGPT 不具备人类在工作时提供的情感,所以那些需要共情与情感激励的学生将处于劣势。”我们发现学生所需要的不仅是反馈;他们更需要符合其学术环境的个性化建议。FG06 指出:“人类教师能给学生提供个性化且详尽的反馈,考虑到他们各自的需求和环境;他们还能鼓励学生,而不仅仅是提供反馈。”
此外,学生们认为依赖 ChatGPT 可能会限制他们通过观察和向他人学习而获得隐性知识、诀窍和智慧。FG01 强调:“ChatGPT 无法取代人类教师的价值。尽管它能提供自动化的答案和即时反馈,但它不能替代人类教师的智慧与专业知识。”然而,学生们也非常清楚,他们不仅可以从教师那里学习,同样也可以通过与同伴的互动获得大量知识。FG05 解释道:“在头脑风暴阶段,ChatGPT 无法与人类的创造力相提并论。即使一个想法看起来崭新,它也可能是旧想法的组合,因此本质上不够新颖。在开发新故事情节时,人类更具创造性。”
隐私问题。我们发现,虽然学生觉得向 ChatGPT 提问无需担心被评判,但在与 ChatGPT 互动时,其他隐私问题也随之出现。学生认为 ChatGPT 可能通过两种方式侵犯他们的隐私:一是获取他们的个人信息,二是窃取他们的知识产权。FG02 解释道:“学生的数据以及他们输入给 ChatGPT 的所有信息都会被存储。如果这些数据落入错误之手,就会引发隐私问题。这些数据可能容易被窃取,使一些人不愿使用它。”类似地,FG01 说:“ChatGPT 存在安全隐患。它可能在用户不知情的情况下收集数据。”
\[0pt]
4.2.3 可用性问题。提示工程困难。我们发现许多学生在与 ChatGPT 互动时面临提示工程上的困难。尽管学生认为“提示工程对于获得高质量结果至关重要”,但他们中的许多人不知道如何开始、该说些什么。这是由于 ChatGPT 界面的特性,该界面通过接受开放式问题作为输入来追求对话。FG02 描述了他们的体验,说道:“学生往往无法构造出能获得期望结果的提示。学生必须学会如何明确构造提示,以使 AI 生成的回答既准确又能满足学生的需求。”
与此同时,学生认为提示工程的困难可归因于 ChatGPT 对上下文理解不足。FG04 指出:“由于它无法理解上下文,该模型有时会给出事实正确但由于缺乏上下文而未能有效满足提示要求的信息。”FG06 解释道:“有时它不完全知道你具体想表达什么。当输入复杂想法时,它很难明白你希望输出是什么。如果这是人与人之间的互动,学生可以进一步解释自己,而无需重新构造提示或调整已写的提示。”
缺乏动手实践。许多学生认为 ChatGPT 限于基于文本的互动,因此限制了多样化学习方法(例如动手实践)或教育材料与设备的使用(例如在白板上使用图示)。P22 指出:
\begin{displayquote}
“ChatGPT 能以不同格式为用户提供信息,但目前学生无法通过 ChatGPT 完成动手操作活动,因为它仅在线上。这限制了需要通过肢体活动或运动来最好地学习的动觉型学生的学习。我个人通过需要学生四处走动并亲自动手操作材料的动手活动学到了很多。”
\end{displayquote}
同样,FG01 提到:“ChatGPT 的回答仅限于基于文本的互动。这对于需要更具互动性和参与性的教育情境来说可能不足。”
\subsection*{4.3 共设计结果与设计启示}
在本节中,我们提出了解决幻觉问题的功能(4.3.1)、提升可用性的功能(4.3.2)、提供更少偏见但更多元化观点的功能(4.3.3)以及促进社交互动的功能(4.3.4),并在每部分末尾给出了设计启示。\
4.3.1 解决幻觉问题的功能。提示工程(即设计特定提示或输入,以引导 AI 语言模型生成期望回答)是与 ChatGPT 互动时最重要的环节之一,因为这是与 ChatGPT 沟通的唯一手段。因此,更好的提示工程会影响 ChatGPT 生成的结果。我们发现部分学生认为更好的提示工程可以防止幻觉现象,但 AI 专家指出,优秀的提示工程并不能解决幻觉问题。P31 解释道:
“提示工程在控制幻觉现象方面并不那么有用。虽然 ChatGPT 看起来能够合理理解上下文并正确回答问题,但大型语言模型仅仅是基于训练数据随机生成文本的模型。其内部根本没有事实核查功能。”
因此,我们的参与者提出了三种缓解幻觉的方法:微调(finetuning)、嵌入(embedding)以及引入外部事实核查算法。
几位 AI 专家强调,有必要对 LLM 进行微调并设计专门针对独特学科或领域(例如,数学 LLM 或历史 LLM)的 LLM,他们以 Google 开发的 Med-PaLM2 为例,该系统旨在“与医疗领域对齐,以更准确、更安全地回答医疗问题。”P35 解释道:
“基于领域特定数据的微调是必要的。在高等教育情境中,我们需要更小但更安全的算法。如果能够创建如数学或英语领域专用的微调领域 LLM,尽管它并不完美,也能解决许多 ChatGPT 在通用用途下产生的幻觉问题。”
其他 AI 专家建议使用嵌入,即将文本、图像和结构化数据转换并存储到外部(向量)数据库的低维特征空间中,因为微调并非解决幻觉的完美方案。他们构思了一种设计,当 ChatGPT 接收到问题时,可以将问题发送至外部向量数据库,通过文本相似度搜索最相似的回答。一旦 ChatGPT 从该数据库获得最佳答案,它即可将匹配的回答传递给最终用户。对于这一点,P34 解释道:
\begin{displayquote}
“简单来说,就是将外部搜索系统整合到 ChatGPT 中。虽然微调从技术上可以提高准确性,但不能从根本上解决幻觉问题。所以,应该有其他技术与 ChatGPT 配合使用。目前嵌入技术正处于业界的中心……简而言之,这就像建立一个针对特定领域的外部搜索系统,通过与 ChatGPT 连接来使用它。”
\end{displayquote}
类似地,P33 补充道:“微软开发的 Copilot 就利用了嵌入技术来帮助生成与用户语境高度匹配的代码。嵌入技术可以与微调形成协同效应。”
此外,还有几位 AI 专家建议将外部事实核查算法整合到 ChatGPT 中。P31 解释道:
“随着生成型 AI 越来越流行,诸如假新闻或 AI 生成的舆论操控等问题也随之出现。各种算法正在被开发出来以进行事实核查并解决这些问题。我们可以在教育环境中尝试这些方法。”
\[0pt]
[设计启示] 从医学教育 [20, 46] 开始,学者们已经开始通过微调开发专门针对独特学科(例如数学 [78])或特定领域(例如编程 [53])的 LLM。由于教育领域在科目、课程及领域上划分明确,获得结构化且经过验证的数据并对其进行微调可能更为容易。此外,教育领域一直存在专门的 ITS 和 AI 家教,通过应用 LLM 可以轻松扩展或改进。因此,我们建议研究人员和实践者探索开发专用 LLM,以缓解幻觉问题。另外,HCI 社区长期以来设计和研究了事实核查算法 [ 4 , 26 , 35 , 39 , 89 , 103 4,26,35,39,89,103 4,26,35,39,89,103 ] 来识别假新闻、错误信息和谣言 [47, 56-58]。继承这些工作,未来的研究应尝试将事实核查算法整合到 LLM 中,并进一步探讨这是否最终能减少幻觉现象并帮助用户辨识真相。\
4.3.2 改善可用性的功能。正如前文所述,许多学生认为在教育中进行提示工程相当困难。尤其是,学生报告称,在与 ChatGPT 进行个性化学习交流时会产生较大的认知负担,因为他们不知道自己不知道什么,也不知道从何入手。P09 将他的提示工程体验比作“学习一门全新的外语。”P34 进一步补充道:
“在课堂上让学生使用 ChatGPT 后,我发现学生之间的差距非常大。少数学生能够通过创造性地进行提示工程充分利用 ChatGPT,而大多数学生则不知如何进行提示工程。我们认为有必要设计一些功能来减轻学生在提示工程上的瓶颈负担。”
同样,P34 表示:“人们期待 ChatGPT 能够实现个性化学习,但实际上,大多数时候,学生不清楚自己知道什么和不知道什么。个性化学习是指让学习者通过提问或通过聊天机器人的指导自主决定学习方向,但我不确定这对任何人来说是否可能。”我们发现,基于文本的互动天生就使学生感到困惑,因为 ChatGPT 有时会对连续提出的附加问题给出更深入的信息,而在另一些情况下却偏题作答。
提示建议。为减轻学生在提示工程方面的负担,许多参与者强调需要提示建议功能,以指导学生的学习。他们认为,提示建议可以基于个性化需求引导探索。参与者设计了按钮式提示建议,如“展示不同视角”、“详细说明”、“转向相关话题”、“帮我构思”、“展示他人对此话题的看法”等。FG03 进一步解释了为何需要此类提示建议:“当用户第一次体验 ChatGPT 时,几乎没有任何指导帮助他们理解提示工程……虽然提供了几个提示示例,但用户互动可以更加引导化。”同样,FG02 建议:“可以为 ChatGPT 添加一个自动提示功能,类似于 Google 搜索的自动补全。当用户输入提示时,ChatGPT 可以建议如何完成提示;这样用户就能更清楚地知道他们想生成什么。”
除提示建议外,学生们认为还需要有关如何更好进行提示工程的教程。FG05 解释道:“教程可以从用户输入关于某个主题的关键词开始,然后基于这些关键词,ChatGPT 生成一些示例提示或问题。用户随后可以根据这些示例的结构,自己设计提示。”
学习地图和导航系统。学生和教授都强调,有必要对学生的学习历程进行总结和结构化,展示学生已学和将学的内容。这可以帮助学生更好地把握自己的学习方向,并在长篇文本对话中不迷失。P11 表达了在长篇文本交互中遇到的困难:“当我不断提问时,有时不得不滚动回页面以查看我之前问过什么。如果 ChatGPT 真正开始被广泛使用,且学生以复杂且多样的方式使用它,我相信这样的问题会更加严重。”在此背景下,一位教师强调了构建学习地图的必要性:
\begin{displayquote}
“令人兴奋的是,学生的学习可以根据他们多样的背景和水平个性化地向任一方向发展。但我们通常在课堂上有共同的课程安排,已经确定并且每节课都必须覆盖具体且关键的主题。当然,展示多元视角并深入探讨学生好奇的部分固然好,但在进行各类搜索后回归原课程主要流程也很重要。为此,构建一个能显示学生目前所处位置、应学习哪些话题及学习应走向何处的学习地图和导航系统将是非常有帮助的,这样学生就不会在学习中迷失。”
\end{displayquote}
AI 助手代理。值得注意的是,许多学生设计了其他 AI 代理,分别扮演 1) 翻译角色或 2) 课程设计角色,而教授则希望 AI 代理能管理学生互动、预防流失并与学生建立融洽关系。关于翻译,学生希望有一个 AI 代理,即使学生没有清楚表达其意图,也能理解并将其转换为表达清晰的提示。此外,学生还设想了其他 AI 代理,这些代理能根据学生的需求、学习环境和学术成就推荐最佳课程,这也是前面所述学习路径设计的一个优势。例如,P13 说明:“我希望有一个摄像头,能够检测我的反应,看我是否跟上了课堂进度或是否真正理解了内容;如果发现我有不懂的地方,它可以提出额外问题,帮我挑出我不了解的点。”其他学生也喜欢将摄像头与 ChatGPT 结合的想法,并希望在使用时能够自行决定是否启用。P19 说:“学生可以选择是否使用摄像头,这样 ChatGPT 就能看到他们对所学内容的反应与理解。”与此同时,P34(教授)提出了另一个示例功能:
“如果有一个能自动诊断学生水平的功能就太好了。不必通过考试来检查学生水平,学生可以上传他们以前提交的论文,通过将数据与校方数据库对接,系统便能告知他们的水平。”
虽然学生强调了个体需求,教授则担心 ChatGPT 可能变成替代学生完成任务的工具,而不促进学生真正的学习。这可能是因为在线学习环境中,学生很容易分心或厌学而缺乏参与感。对此,我们的参与者强调了 AI 代理的作用,这些代理通过观察学生的连续互动并提供反馈以激发学生的好奇心和参与感。此外,他们认为 AI 代理还应能在总结讨论话题、提示沉默学生发言、并给予情感支持等方面发挥调节作用。P26 解释说:
“ChatGPT 可以将兴趣、课程或话题相近的学生分组,然后在学生之间创建讨论话题。ChatGPT 能将学生互相连接,并通过提供破冰话题影响互动。这样将能维持学生间的社交互动。”
此外,一位教授(P33)解释道:
“无论学生是在家中还是在课堂上使用 ChatGPT,如果它不能激发学生的积极参与,那么它仅仅是一个为学生做杂事的工具。从这个意义上来说,ChatGPT 应不断通过反馈、提示和发问来激发学生参与。这正是我在现实课堂中用来增加学生参与感的方法。”
\[0pt]
[设计启示] 尽管提示工程被视为 ChatGPT 在更宽泛(非教育)场景中主要的可用性问题之一 1 { }^{1} 1,我们发现这种使用难度在教育情境中更为严重。当前 LLM 独特的利用开放式自由对话处理开放性话题的方式,与那些基于对人类家教话语及教学策略经过系统分析后为教育而设计的 ITS 形成鲜明对比。尽管 ChatGPT 能直接提供信息,这无疑是辅导的重要部分,但它缺乏“在特定任务中共同构建回答,例如解决问题、回答挑战性问题及创建作品” [22] 的核心功能。
令人惊讶的是,我们的参与者为改善 ChatGPT 可用性问题所期望的策略和功能,如提示、反馈、提示建议、学习地图与导航系统及 AI 助手代理,都与 ITS 长期以来具备且已被证明有效的特征类似。例如,使用 ChatGPT 时的提示工程要求学生完全自己构建(例如构造问题和任务),而 ITS 则是在系统化对话框架下运行 [22]:① 家教和学生都能提出任务;② 学生首先自行处理任务;③ 家教对任务质量提供简短反馈;④ 家教和学生共同完善回答;⑤ 家教检查学生是否正确理解回答并在必要时跟进。特别是在第 ④ 步中,ITS 通过使用提示(例如,“还有什么?”)、提示和建议,在核对“预期目标(预期良好答案、过程步骤)与常见误区(错误或缺陷)”后引导学生得出正确答案。
ITS 特性 [23, 80, 87] 的有效性已被证明符合我们参与者(学生及教授)的需求,因此我们可以自信地认为,ChatGPT(以及其他 LLM)可以从 ITS 的系统方法中受益,通过主动利用对话及教学技巧:① 基于步骤或子步骤的交互,② 反馈、提示及建议,以及③ 共同构建、推理与脚手架支持。我们预计这三大技巧的组合能解决大多数学生参与者所提出的挑战(详情见 4.3.2)。
\[0pt]
4.3.3 提供更少偏见但更多样化观点的功能。与普遍猜测“ChatGPT 可能会增加学生接触多样化观点的机会”相反,学生和教授都担心使用 ChatGPT 可能会传达单一化的信息或知识。高质量的提示工程对学生获取多样化观点和知识至关重要,但学生仍然很难通过精确设计提示来提问。一位教授描述了他发现学生使用 ChatGPT 后获得统一结果的经历:
\begin{displayquote}
“很多人都期望 ChatGPT 为学生带来多样化视角。然而,当我审视课堂上学生实际使用 ChatGPT 的情况时发现,学生们很难或厌倦于构造和尝试各种提示。因此,他们往往提出常规问题,结果只获得一般化和常见的回答。我曾布置作业让学生用 ChatGPT 讨论某一话题,但我真的很惊讶地发现,学生提交的结果彼此非常相似。这意味着学生并未获得多样化的意见,而只是统一的视角(因为他们提出了相似的问题)。”
\end{displayquote}
针对这一点,我们的参与者(学生和教授)均认为有必要开发能够催生多元观点且减轻算法偏见的多代理系统。设想中存在众多 AI 代理:一种为主持代理,收集并总结学生提出的多样化观点,或引入其他意见促进讨论;还有多代理系统,展示并倡导不同的政治立场。P15 解释多代理的作用时说:
“多代理 AI 可以从不同视角生成建议,并让它们争论、讨论及整合结果。”
除了开发展示独特观点的新多代理外,许多学生还强调了这些代理在促进学生讨论和参与中的作用,使得学生能够积极思考和表达自己的观点。P29 指出:
“不同的观点并非绝对对错,但讨论却是课堂学习中非常重要的一部分,因为它能拓宽学生的思维视角……有一项功能允许学生就某个话题进行讨论,ChatGPT 则对讨论进行分析,并提出汇总性的回答。”
\[0pt]
[设计启示] 我们的研究结果表明,学生不太可能利用 ChatGPT 开放式对话的自由风格探索多样化观点;反而,他们往往提出标准化的问题,导致思维趋于一致。为避免这一结果,我们建议大幅增加提示建议的类型和数量,引导学生寻找多样化视角;此外,还应加入例如“显示其他观点”之类的按钮,轻松推动学生探索新思路。同时,研究人员与实践者应提前考虑未来的教育情境,即多个学生与单个代理(“一对多”交流)或多个代理之间的互动(“多对多”交流)。关于这一点,以往 CHI 研究 [43, 50, 77, 79, 93] 探讨了与多方聊天机器人互动的潜在情境 [77] 以及聊天机器人的不同角色及其对队友熟悉度的积极影响 [79]、生成更多想法和多样化观点 [43, 50, 79]、以及推动沉默者发言 [43]。通过将这一工作延伸并应用于教育环境,未来的研究人员和实践者可对当前 LLM 进行改革,促进学生间的讨论和激发新想法,而不仅仅是 ChatGPT 单方面为学生生成和分享多样化视角。
\[0pt]
4.3.4 促进社交互动的功能。许多学生指出,与教授和同学的社交互动减少及其对心理健康的负面影响风险。就此,P14 说:“学生的心理健康可能会恶化,因为他们在社交上变得不那么活跃,见到朋友或同学的频率也减少了。”
为增加学生之间的社交互动,许多参与者喜欢将元宇宙引入 ChatGPT,并结合 AI 代理在社交中的积极作用(参见 4.3.3 的设计启示),以调节讨论、匹配学生等。P26 建议道:
“解决 ChatGPT 缺乏社交化的一种方法是创建一个元宇宙教室或类似的在线互动空间,在那里学生可以使用 ChatGPT 与其他学生互动、协作、编辑和创作。”
此外,P33 说明道:
“因为 ChatGPT 完全取代人类家教或实体教室的情景还未出现,所以大部分 ChatGPT 的使用会在学生家中进行,完成作业时使用。如果我们能被其他朋友包围,并看到和分享他们如何在元宇宙中与 ChatGPT 互动,这实际上增加了与同学在实体课堂之外的社交机会。”
\[0pt]
[设计启示] 我们的研究结果表明,学生担心如果过于依赖 ChatGPT,会导致社交隔离及随之而来的心理健康问题,尤其是当 1) ChatGPT 取代人类家教或实体课堂,或者 2) ChatGPT 被用作课外辅助工具(例如家中使用)时。事实上,Lee 等人 [51] 发现学生在自学时常感孤独,为了缓解孤独感、体验他人的幻觉存在,越来越多的学生会播放 “和我一起学习” 视频(其中展示别人学习、写作和翻页的场景)。还有一些学生通过使用视频会议工具(例如 Zoom)自学,并共享自己的形象或学习资料,从而创造出更强的社交存在感和氛围 [51]。在这一背景下,参与者认为减少社交互动和由此产生的心理健康问题并非琐事,而是已经存在的现实问题。因此,参与者批评说:“当使用 ChatGPT 时,所有对话仅发生在人与 AI 程序之间” 并强调“社交互动能够促进社会学习。”我们首先建议 LLM 应加入促进社交互动的功能,例如将现有的 ChatGPT(通常被称为一对一的 LLM 或二元聊天机器人)扩展为支持一对多交流的形式。这不仅会增加学生与同伴之间的社交机会,还能促进社会学习,即学生通过观察其他同伴如何进行提示工程或利用 ChatGPT 学习,从而获得隐性知识。
然而,这种升级后的社交版 ChatGPT 可能仍会由于其文本界面的局限性而缺乏社交存在感。因此,我们呼吁更大胆的产业试验,将 LLM 的优势与虚拟现实(VR)结合至更大规模的技术生态中。我们还建议教师利用当前基于计算机的 VR 技术或平台,为学生提供社交机会,而不是让学生独自在家使用 ChatGPT。在最近的 CHI 研究 [36, 68, 95, 96] 中已经证明,元宇宙中工作或学习时的社交存在感具有显著效果;Jin 等人 [36] 指出,尽管大学生在学习时希望采用 VR 来增强社交存在感,但由于价格高昂导致难以普及,因此在高等教育中使用 VR 仍面临挑战。然而,以个人电脑(PC)运行的二维或三维元宇宙平台仍能增加社交存在感。因此,教授们努力引入基于 PC 的元宇宙平台,将为学生提供探索 LLM 的社交学习环境,这将是一种极有价值的尝试。
\section*{5 讨论}
\subsection*{5.1 面向 ITS 和 LLM 之间互补性的探索}
我们的研究为将 ITS 与 ChatGPT 融合用于教育目的提供了宝贵的设计启示;也就是说,ITS 和 ChatGPT 的不同优势可以互补彼此的弱点。例如,虽然 ITS 所采用的系统化方法(参见 2.1)已被证明对学习有效,但 ITS 存在四个主要弱点(选择、非线性访问、关联表达和开放式学习者输入) [22]。智能辅导系统并不总是允许学生决定学习内容(即自我调控学习),也不赋予学生选择偏离严格结构化课程活动的权力。此外,ITS 无法在不同观点、教学技巧和多媒体表达之间快速关联,也无法让学生通过自然语言或开放式交流即时提出突发观点或疑问。这些弱点导致 ITS 的根本问题:除非事先预见并准备好,否则 ITS 无法处理或支持学生突然提出的意外问题、任务或话题。因此,Graesser 等人 [22] 认为,使用 ITS 进行学习在某种程度上是以教师或辅导为中心,而非以学生为中心。
我们的研究发现表明,ChatGPT 有可能解决上述 ITS 部分问题。例如,学生参与者可以自主决定学习的任务和话题,请求多元化的观点,并能在任何时候以开放式问答方式提问。然而,ChatGPT 给学生过多自由,反而使学生面临提示工程、缺乏学习地图或(子)步骤等高认知负担问题。因此,设计用于教育目的的 LLM 的第一步应当是重新审视、借鉴并积极验证在 ITS 文献中已经建立的对话及教学技巧,并将 LLM 的优势与之融合,以减少各自的弱点。同时,研究者和实践者也可以开拓新的研究,探讨 LLM 是否可以整合并提供多种超越纯文本界面的教学技巧,通过使用不同互动方式、多模态(例如学生绘图)和媒体,从而展望出更先进但负责任的教育技术,这将惠及学生、教师与社会。
\subsection*{5.2 人类教师的新兴角色}
多项元分析已经表明,学生使用 AI 家教比使用人类家教学习得更好 [19],同时学生也对 ChatGPT 出色的可用性和能力充满热情。鉴于此,我们是否真的还需要人类教师?在 ChatGPT 可以协助学生的情境下(例如,代写论文 [15, 32, 44, 49]、修正程序代码 [14]、搜索和检索信息 [63]),人类教师究竟应扮演何种真正的角色?我们的研究回答了这些问题,强调了人类教师在以下三个方面的不可或缺性:1)人类教师的情感支持对于激励、表扬和引导学生至关重要;2)学生重视与同伴的社交互动和集体学习以获取隐性知识和诀窍;3)部分学生需要通过动手实践的方式进行学习。因此,为学生提供能够培养上述三种人类角色的环境和机会将成为人类教师不可替代的职责。
尽管许多学生批评 ChatGPT 缺乏情感支持,但没有人主张 ChatGPT 应提供情感支持。相反,他们担心过度与 ChatGPT 互动可能导致与教授社交互动减少。这一发现与 Holstein 等人 [28,30] 的早期工作一致,该工作发现教师和学生都最不喜欢 AI 家教提供自动化情感支持。此外,在另一项关于 AI 强化教室的田野研究中,作者观察到一位教师走向一名使用 AI 家教学习困难的学生,结果发现该学生的困难并非源于与 AI 的互动,而是因其感情问题所致 [28]。当前形式的 ChatGPT 提供的是人机之间的二元互动,很容易加剧社交隔离,因此人类教师在关注学生学习情况、指导职业和激励学生方面的角色将是必要的。
另外,我们的研究还显示,学生重新认识到了学习中社交(即社交存在感、与同伴的互动等)和动手实践(即亲自操作)这两方面的重要性。为满足这些需求,人类教师可以在在线和离线环境下发挥关键作用,促进社交存在感、学习与互动。对于离线互动,人类教师应提供更多机会,让学生学会展示自己的想法并探索各种动手实践活动。这可以缓解学生对语言表达、社交等人际技能退化或因过度使用 ChatGPT 而导致动手实践机会减少的担忧。而对于在线互动,我们建议人类教师利用现有的虚拟平台(例如基于 PC 的元宇宙或 VR [36]),为学生安排一个空间,使他们在与同伴互动的同时感受到更强的社交存在感,否则他们在家中将陷于孤独中学习。研究表明,他人的存在不仅会影响学生的学习效率 [51],还会提升社交互动的效果 [40]。因为根据社会学习理论,学生通过观察和模仿他人的行为可以学到更多 [5]。因此,在实体课堂之外增加和扩展供学生相互会面的机会,将成为人类教师的一项重要职责。
\subsection*{5.3 高等教育中新兴目标(即所需技能)}
AI 正在深刻改变我们的工作环境 [33, 34, 66, 67, 102],重塑着工作本质和所需技能。根据世界经济论坛的一份报告,到 2025 年,AI 预计将全球淘汰 8500 万工作岗位,同时创造 9700 万个新职位 [97]。这一转变表明,AI 时代所需要的技能和能力将与当前大为不同。鉴于这一变化,人们越来越担心高校是否能充分为学生为一个由 AI 驱动的未来做好准备。现有数据表明,这些高等院校未能满足对 AI 专业人才日益增长的需求。例如,虽然 80% 的高级 IT 领导者表示员工需要精通生成型 AI,但 63% 的管理者反映其组织中缺乏具备 AI 及机器学习专业技能的人员 [70]。尽管存在如此明显的“人才缺口”,大约 69% 的应届毕业生担心 AI 可能使他们的工作在不远的将来变得多余或无关紧要。
生成型 AI 技术如 ChatGPT 的崛起加速了这一转变,使 AI 应用更为普及。彭博社最近报道,ChatGPT 的提示工程师年薪可在 $175,000 到 $300,000 之间 [73]。此外,AI 软件可将普通知识型工作者的生产力提高近 2.4 倍,进一步拉大了精通 AI 与不精通 AI 人群之间的差距 [81]。面对如此迅速的演变,高校发现自己在提供明确指南或政策方面面临挑战,经常不得不采取模糊地劝阻使用 ChatGPT 或发出关于学术诚信重要性的通用性提醒。
精准界定 AI 时代所需的具体技能是一项挑战,但专家和学者普遍认为批判性思维与 AI 素养是关键能力 [54]。批判性思维对于人类创造力至关重要 [ 2 , 17 , 54 , 59 , 86 , 105 ] [2,17,54,59,86,105] [2,17,54,59,86,105];它使个体能够质疑、分析并解读迅速变化的社会技术环境,在这个环境中,复杂信息、新兴技术、社会系统和众多利益相关者交织在一起。AI 素养对于高效协作和理解 AI 系统至关重要。除了这些核心能力,还有学者强调诸如共情、沟通和创造力等以人为本的技能的重要性——尤其在那些 AI 难以胜任的模糊和界定不清的场景中 [106]。
人类知识与技术能力的迅速扩展呈现出一种悖论:可学内容不断增多,但正规教育可用的时间却有限。尽管终身学习的观念正在兴起,但传统大学体系仍可能需要进行大幅课程调整,例如设计更具选择性地聚焦某一学科的课程。就研究迫切性而言,诸如 ChatGPT 的生成型 AI 技术的出现,凸显了这一主题的紧迫性,迫切需要大量后续研究,以更好地理解和应对这一不断演变的局面。
\subsection*{5.4 社会技术政策设计}
随着 ChatGPT 在高等教育中的出现,关于学习成果受损与学术诚信受破坏的担忧日益加剧。鉴于 ChatGPT 高级的文本生成能力以及轻松汇聚并呈现大量信息的能力,该工具对于原本需要学生投入大量劳动和繁琐学习过程的学生来说,构成了一种极具吸引力的捷径。为应对这一紧迫挑战,一些人试图开发能够准确检测作弊的算法。近几个月来,一波此类技术解决方案问世,并在学术界被广泛采用。
然而,这些以技术为中心的方法正日益受到其局限性和非预期后果的质疑。随着 LLM 快速发展,准确检测 AI 生成文本的技术难题依然存在并在升级 [ $6,45,111]。例如,即使是领先的检测方案也被发现会产生误报,将无辜学生标记出来,并且未能检测出如 GPT-4 等新型 AI 模型生成的文本 [112]。此外,对那些被错误指控的学生所造成的心理压力也令人担忧 [88]。因此,尽管技术解决方案可能在一定程度上缓解学术诚信的威胁,但它们不应成为解决这一多面问题的唯一焦点。为了制定出更全面、有效的解决方案,从社会技术的角度考虑人类心理、组织文化和社会规范至关重要 [1]。
变革性技术的出现一贯会在教育范式与其在职场中的实践应用之间引发紧张关系。例如,计算器的引入曾在广大学术利益相关者中引发激烈的讨论和担忧 [82]。这一历史事件在某种程度上映射出我们现今在将 ChatGPT 整合进高等教育时所面临的挑战,特别是在学习成果受损和学术诚信方面的问题。然而,在当今世界,手工计算在教育中依然存在,而在实际应用中它已大多由计算器取而代之。这种二元对立反映出社会共识,即认识到教育与实际应用所需技能存在差异。该共识普遍支持这样一种观点:教育过程应包含劳动密集型、反复迭代的体验以促进试错学习。精心设计的这种“有意的不便”能让学生培养批判性思维。此外,对技术组成部分与过程的有限理解也制约了我们发挥其全部潜力的能力。因此,“我不认为在有计算器的情况下还需要练习手工计算”这样的论调几乎不会被提出。
正如社会达成了关于计算器角色的共识,关于将 ChatGPT 等 LLM 技术整合进教育情境的类似讨论也刻不容缓。为启动这一讨论,我们必须阐明在 AI 时代指导教育的核心价值与原则,确保这些价值与原则能引起学界及其他利益相关者的共鸣。关键问题包括:在 AI 时代,教育中应优先培养哪些技能?在信息和知识迅速扩张的背景下,高校如何做出聚焦选择?以及如何协调传统教育范式与快速变化的社会需求?在确立了发展方向和基本原则后,就必须向教育共同体的所有成员明确且一致地传达它们。通过反复和持续的对话,这些价值观将被嵌入到制度文化中,最终塑造公众认知并建立新的常识。
\section*{6 局限性与未来研究}
有几点局限性值得注意。首先,由于我们的研究基于西方文化中讲英语的大学生,因此我们的结果可能不反映以英语作为第二语言、生活在其他地区(例如东部国家,或技术发展较慢国家)或因各种原因(例如经济条件)无法进入大学的学生的情况。目前,我们的研究无法回答 ChatGPT 是否会成为对那些(1)无法接受大学教育(考虑到他们可能无法定期接触技术)或(2)必须通过第二语言与 ChatGPT 互动的学生来说,有用的教育工具。因此,未来的研究可以调查弱势群体或以英语作为第二语言的学生如何看待并使用 ChatGPT 进行教育。
其次,我们的研究聚焦于本科生使用 ChatGPT 的利弊,因此研究生或 AI 素养较高或较低的学生可能会有不同看法。此外,由于本研究是在课堂环境中开展的,学生可能在教授及其他同伴面前不太愿意坦率表达真实意见(例如认为 ChatGPT 比教授还好)。我们期待未来的研究能更诚实地收集那些使用 ChatGPT 进行多样化教育目的的学生的意见。
第三,我们没有系统地观察或测量 AI 工具是否真正帮助提升了学生学习的主要目标。然而,我们相信,通过分析课程成绩或其他衡量指标来检验 AI 工具对学生学习的实际影响必定是一条有前景的研究路径。
最后但同样重要的是,在本研究开展时,我们实验使用的是 ChatGPT-3.5。但是,随着 ChatGPT 技术的迅速进步,我们需要进行更多后续研究以扩展本研究。例如,尽管 ChatGPT-3.5 在信息时效性方面存在问题,但 ChatGPT Pro 版本已解决了大部分时效性问题。因此,研究近期信息如何满足学生需求非常重要。另外,更新后的 ChatGPT-4 能处理更长文本并提供多模态设置。这些技术进步拓宽了理解长文本(例如学生的长篇报告)中概念或语境的可能性,并提高了支持多种互动类型(例如绘图)的机会,而这些是传统 ITS 无法充分支持的 [22]。因此,我们呼吁进行更灵活的后续研究,探讨这些新功能在教育中对人机交互领域可能带来的新前景。