《Ethical Implications of ChatGPT in Higher Education: A Scoping Review》
ChatGPT在高等教育中的伦理影响:一项范围界定性综述
摘要
本范围界定性综述探讨了在高等教育中使用ChatGPT所引发的伦理挑战。通过回顾近期发表的英文、中文和日文的学术文章,我们旨在提供一次深入的文献回顾并识别文献中的空白。基于Arksey & O’Malley(2005)的范围界定性综述框架,我们定义了检索词并从三种目标语言的四个数据库中识别了相关出版物。研究结果显示,大部分论文为讨论性文章,但也有一些初步的实证研究。这些工作中讨论的伦理问题主要涉及学术诚信、考核问题和数据保护。鉴于生成式人工智能的迅速发展,教育工作者亟需开展更多实证研究,以制定其使用的合理伦理政策。
关键词:ChatGPT,教育,伦理,生成式人工智能,高等教育,范围界定性综述
引言
生成式人工智能(GAI)不同于传统的模式识别技术,其设计目的是根据人类需求生成文本内容。自2012年深度神经网络技术迅速发展以来,领先的科技公司陆续开发了诸如OpenAI的GPT-3(Brown et al., 2020)、Google的PaLM(Chowdhery et al., 2022)以及Microsoft的Turing-NLG(Smith et al., 2022)等生成式人工智能模型。这些产品的早期版本被发现可能生成虚假、歧视性及有害内容。因此,研究人员(Chung et al., 2022;Ouyang et al., 2022)投入大量努力,以使模型输出符合人类价值观。2022年11月ChatGPT的发布使公众认识到,生成式人工智能已经具备生成类似人类对话、按需检索存储知识以及实现与人类的自然互动的能力,这也标志着其作为人工智能助手的能力得到了广泛关注。此举掀起了当前将生成式人工智能应用到各个领域(包括教育)的热潮。
ChatGPT的出现标志着高等教育领域的一项重大创新,并正迅速扩展其对教学、学习、研究、行政管理及社区参与等多个领域的影响(UNESCO IESALC, 2023)。ChatGPT在教育环境中的应用多样化,包括个性化学习路径、课程改进以及作业、考试与论文的评估(Huang, 2023;Kashiwamura, 2023;Ojha et al., 2023)。通过提升教育实践和研究方法,ChatGPT已成为推进高等教育促进学习和发现使命的关键工具(Farrokhnia et al., 2023)。
尽管具有众多优势,生成式人工智能的研究表明,该技术在生成不准确信息(即“幻觉”问题)、存在偏见(包括种族、国籍和性别偏见)以及生成歧视性内容等方面存在潜在风险(Munn, 2023;Nozza et al., 2022)。现有的人工智能文献强调了在应用中要关注公平性问题,其原因在于语言模型输出中固有的偏差(Benjamin, 2019;O’Neil, 2016)。当教育相关流程中使用生成式人工智能输出时,可能会放大这些问题性内容、偏见和假设,从而对学习者、教育工作者、研究人员及行政人员产生负面影响。
本范围界定性综述考察了在教育领域(特别是在高等教育中)部署ChatGPT所涉及的伦理影响。通过对我们具备高级语言能力的英文、中文和日文的学术文章进行分析,我们力图描绘该领域当前的研究格局。我们的目标是识别现有研究空白,并提出未来可能的研究方向,从而促成对在教学、学习、研究与行政管理中使用ChatGPT相关伦理维度的全面理解。
研究方法
范围界定性综述通常用于识别新兴领域中的关键问题或文献量尚不充裕的领域。正如 Tricco et al. (2016) 所述,范围界定性综述“用于识别知识空白、制定研究议程以及探讨决策过程中的影响”。在本研究中,我们采用了Arksey和O’Malley(2005)提出的五阶段范围界定性综述框架,其中包括确定初步研究问题和相关研究、选择研究、绘制数据图表以及收集、总结并报告结果。
识别相关研究
我们将注意力局限于关注最新版本GPT的文章。我们在2023年8月进行了检索,并搜索了当年发表的文章。我们使用了检索词“ChatGPT”或“Generative AI”联合“education”和“ethics”(见表1)。为了捕捉更多基于证据的实证研究和对该主题的讨论,我们将 Scopus 作为初步检索的主要数据库。为了涵盖正在进行中的研究,我们还纳入了arXiv平台,该平台提供预印本文章的访问。作者同时具备日语或中文的近母语能力,因此我们在日文的主流数据库 CiNii 和中文的CNKI中进行检索。连同英国和美国,日本和中国在人工智能发展方面处于领先地位,这使得这两种语言成为良好的目标。
Table 1: 最终检索词及各平台检索结果
\begin{center}
\begin{tabular}{|l|l|l|}
\hline
数据库 & 检索词 & 检索结果 \
\hline
Scopus & \begin{tabular}{l}
(TITLE-ABS-KEY (“chatgpt” OR “generative AI”) \
\
AND TITLE-ABS-KEY (“education”))
\end{tabular} & 276 \
\hline
\end{tabular}
\end{center}
\begin{center}
\begin{tabular}{|l|l|l|}
\hline
& \begin{tabular}{l}
(TITLE-ABS-KEY("chatgpt"OR"generative AI") \
AND TITLE-ABS-KEY("education"AND \
"ethics"))
\end{tabular} & 27 \
\hline
ArXiv & \begin{tabular}{l}
(TITLE-ABS-KEY("chatgpt"OR"generative AI") \
AND TITLE-ABS-KEY("education"))
\end{tabular} & 112 \
& \begin{tabular}{l}
(TITLE-ABS-KEY("chatgpt"OR"generative AI") \
AND TITLE-ABS-KEY("education"AND"ethics" \
))
\end{tabular} & 24 \
\hline
CiNii & \begin{tabular}{l}
(TITLE-ABS-KEY("chatgpt"OR"生成 AI")AND \
TITLE-ABS-KEY("教育"))
\end{tabular} & 23 \
\cline{2-3}
& \begin{tabular}{l}
(TITLE-ABS-KEY("chatgpt"OR"生成 AI") \
AND TITLE-ABS-KEY("教育"AND"課題"))
\end{tabular} & 4 \
\hline
CNKI & \begin{tabular}{l}
(TITLE-ABS-KEY("chatgpt"OR"生成 AI")AND \
TITLE-ABS-KEY("教育"))
\end{tabular} & 198 \
\cline{2-3}
& \begin{tabular}{l}
(TITLE-ABS-KEY("chatgpt"OR"生成 AI")AND \
TITLE-ABS-KEY("教育"AND"伦理"))
\end{tabular} & 12 \
\hline
\end{tabular}
\end{center}
\section*{绘制数据图表与整理}
初步检索共获得609条结果,其中67条涉及教育和伦理关注。在这些结果中,我们根据纳入标准确定了26篇文章(见图1)。所有文章均由两位审稿人进行审核,并由第三位审稿人核查结果。
\includegraphics[max width=\textwidth, center]{2025_04_15_c216b80d43405ea4cbb3g-05}
\section*{图1:数据提取过程}
在分析文章中提出的伦理问题时,我们参照了DeepMind(Weiginger et al., 2021)进行的一项综合性研究,该研究提出了一个评估语言模型(LMs)部署可能带来的伦理和社会危害的框架(见表2)。
Table 2: 伦理及社会风险领域
\begin{center}
\begin{tabular}{|c|l|l|}
\hline
# \# # & 领域 & 描述 \
\hline
1 & \begin{tabular}{l}
歧视、\
排斥与\
毒性
\end{tabular} & \begin{tabular}{l}
人工智能模型可能通过强化歧视、\
刻板印象及偏见,对个体造成边缘化,\
并促进毒性语言,进而加剧弱势群体的不平等状况。\
\end{tabular} \
\hline
2 & 信息风险 & 机密数据或敏感信息的泄露。 \
\hline
\end{tabular}
\end{center}
\begin{center}
\begin{tabular}{|l|l|l|}
\hline
3 & \begin{tabular}{l}
虚假信息\
危害
\end{tabular} & \begin{tabular}{l}
提供虚假或误导性信息,导致用户知识不足\
且削弱共享信息的信任度。\
\end{tabular} \
\hline
4 & 恶意使用 & \begin{tabular}{l}
利用语言模型实施恶意行为的风险,\
包括进行虚假信息宣传、个性化诈骗、\
大规模欺诈以及恶意电脑代码或武器系统的开发。\
\end{tabular} \
\hline
5 & \begin{tabular}{l}
人机\
交互\
危害
\end{tabular} & \begin{tabular}{l}
用户对“类人”人工智能能力的高估可能导致\
不安全的使用、为操控而利用及刻板印象的固化。\
\end{tabular} \
\hline
6 & \begin{tabular}{l}
自动化、\
准入与\
环境\
危害
\end{tabular} & \begin{tabular}{l}
语言模型带来的不平等效益及有限准入可能影响\
工作质量、创意经济,并在全球范围内造成风险与收益的差异。\
\end{tabular} \
\hline
\end{tabular}
\end{center}
\section*{结果}
大多数识别出的论文为英文文章( n = 19 \mathrm{n}=19 n=19),其次是中文( n = 4 \mathrm{n}=4 n=4)和日文( n = 3 \mathrm{n}=3 n=3)。在英文论文中,十篇为实证研究,九篇为理论或讨论性论文,主要关注领域如医疗和医药领域。相比之下,中文和日文论文数量要少得多。四篇中文论文均为关于ChatGPT在教育中的应用及预测其影响的一般讨论。日文论文只有三篇,其中一篇报告了关于学生实际使用ChatGPT的初步研究(Kondo et al., 2023)。另外两篇论文分别讨论了日本人撰写英文学术论文面临的挑战以及ChatGPT在支持教学和一般教学应用中的作用(Kashimura, 2023;Yanase, 2023)。
总体而言,专门聚焦高等教育的讨论较少。大部分论文( n = 19 \mathrm{n}=19 n=19)是泛教育性的,主要讨论了教学( n = 19 \mathrm{n}=19 n=19)和学习( n = 13 \mathrm{n}=13 n=13)过程中出现的伦理问题,这些讨论主要基于理论和概念性视角而未深入到具体的教育层次。而专门关注高等教育的论文( n = 6 \mathrm{n}=6 n=6)主要讨论整体教学法的影响,特别是在医学教育( n = 2 \mathrm{n}=2 n=2)、师生认知( n = 3 \mathrm{n}=3 n=3)以及研究影响方面( n = 1 \mathrm{n}=1 n=1)。
Table 3: 综述文章列表
\begin{center}
\begin{tabular}{|c|c|c|c|c|}
\hline
作者 & 语言 & 教育层次 & 主要领域/焦点 & 伦理关注 \
\hline
\multicolumn{5}{|l|}{数据库:Scopus} \
\hline
Busch et al. & 英文 & 高等教育 & 教学、学习、行政管理 & 1,2, 3, 4, 5 \
\hline
Chan & 英文 & 高等教育 & 教学、学习 & 2, 3, 5 \
\hline
Curtis & 英文 & 高等教育 & 研究 & 3, 5 \
\hline
da Silva & 英文 & 泛教育 & 研究 & 3, 5 \
\hline
Dwivedi et al. & 英文 & 泛教育 & 研究 & 1, 2, 3, 4, 5, 6 \
\hline
Fischer & 英文 & 泛教育 & 行政管理、教学、学习 & 1, 2, 3, 4, 5 \
\hline
Krüger et al. & 英文 & 泛教育 & 研究 & 1,2,3, 5 \
\hline
Lim et al. & 英文 & 泛教育 & 教学 & 1,2,3 \
\hline
Masters (a) & 英文 & 泛教育 & 教学、行政管理 & 1,2, 3, 4, 5 \
\hline
\multirow[t]{2}{*}{Masters (b) O’Connor & ChatGPT} & \multirow[t]{2}{*}{英文} & \multirow[t]{2}{*}{泛教育} & \multirow[t]{2}{*}{\begin{tabular}{l}
研究 \
教学、学习、研究
\end{tabular}} & 3, 4 \
\hline
& & & & 3, 5 \
\hline
\multirow[t]{2}{*}{Tlili et al. Zumsteg & Junn} & \multirow[t]{2}{*}{英文} & \multirow[t]{2}{*}{泛教育} & \multirow[t]{2}{*}{教学、学习} & \multirow[t]{2}{*}{1,2, 3, 4, 5,} \
\hline
& & & & \
\hline
\multicolumn{5}{|l|}{数据库:arXiv} \
\hline
Chan & Hu & 英文 & 高等教育 & 教学、学习 & 1, 2, 3, 4, 5 \
\hline
Latif et al. & 英文 & 泛教育 & 教学 & 1, 2, 3, 4, 5 \
\hline
Li et al. & 英文 & 泛教育 & 教学、学习、研究 & 1,2, 3, 4, 5 \
\hline
Ojha et al. & 英文 & 泛教育 & 教学 & 4, 5 \
\hline
Sharma et al. & 英文 & 泛教育 & 行政管理 & 3, 4 \
\hline
Sharples & 英文 & 泛教育 & 教学、学习 & 3,5 \
\hline
\end{tabular}
\end{center}
\section*{数据库:CiNii}
\begin{center}
\begin{tabular}{lclll}
Kashimura & 日文 & 泛教育 & 教学 & 1 , 2 , 3 1,2,3 1,2,3 \
Kondo et al. & 日文 & 中等教育 & 教学、学习 & 3,5 \
Yanase & 日文 & 泛教育 & 研究 & 3,5 \
\hline
数据库:CNKI & & & & \
\hline
Huang & 中文 & 泛教育 & 教学、学习 & 1 , 3 , 5 1,3,5 1,3,5 \
Song & Lin & 中文 & 泛教育 & 教学 & 2 , 3 , 5 2,3,5 2,3,5 \
Xun & 中文 & 高等教育 & 教学、学习 & 1 , 3 , 4 , 5 1,3,4,5 1,3,4,5 \
Zhu & Yang & 中文 & 泛教育 & 教学、学习 & 1 , 2 , 3 , 5 1,2,3,5 1,2,3,5 \
\hline
\end{tabular}
\end{center}
就伦理问题关注的焦点而言,大部分论文关注#3虚假信息危害( n = 25 \mathrm{n}=25 n=25),包括学术诚信、作弊与其他考核问题,以及用户在识别与澄清信息中的角色;同时关注#5人机交互相关危害( n = 24 \mathrm{n}=24 n=24),例如成瘾、依赖以及认知过载。为了进一步阐明这一点,我们将论文分为四个主题:教学、学习、研究和行政管理。
本节中,我们总结文献中关于高等教育中ChatGPT伦理影响的主要关注点和讨论要点。
\section*{教学}
关于教学的文献主要关注虚假信息危害( n = 19 \mathrm{n}=19 n=19),其次是人机交互危害( n = 18 \mathrm{n}=18 n=18)。其中包括将人工智能引入大学教学中的教学法影响,例如在考核中的应用。Latif et al.(2023)的研究指出,人工智能有可能延续来源于训练数据的性别和国籍相关的现有社会偏见,这可能对教育应用的公平性和诚信性产生不利影响(Busch et al., 2023;Curtis, 2023;Song & Lin, 2023)。
人工智能在教育中的整合也促使对师生动态关系进行重新评估。Sharples(2023)讨论的对过度依赖AI生成内容的担忧,突显了可能削弱传统教育者独特贡献——即设计引人入胜和创新课程及学习活动——的风险。这要求在引入人工智能时采取平衡的方法,以确保其是对人类教学的补充,而不是对其价值的削弱。
ChatGPT促进了个性化学习体验,并加强了学生支持、语言辅导、内容生成和职业指导(Kooli, 2023;Lim et al., 2023)。然而,要设计新的课程或提供个性化教学,高校需要收集和处理大量学生数据,往往在未获得学生同意的情况下进行。这引发了关于数据隐私和安全的重大问题,强调需要采取严格的数据保护措施,以防止敏感信息被未经授权使用(Chan, 2023;Masters, 2023a)。
\section*{学习}
与教学类似,“学习”方面的文献主要关注虚假信息危害和人机交互危害( n = 12 \mathrm{n}=12 n=12)。这包括担心学生可能过度依赖生成式人工智能生成的内容来撰写论文和考试,从而危及他们作品的真实性(Li et al., 2023;Zhu & Yang, 2023)。对ChatGPT的过度依赖可能导致学生在学术诚信感和责任感上的下降(Ojha et al., 2023)。此外,ChatGPT的过度使用可能损害学生的批判性思维能力,使他们重度依赖AI生成内容,从而削弱独立分析与评估信息的能力(Tlili et al., 2023)。
文献中提出的另一个重要问题是,由于AI生成内容极具说服力,可能导致虚假信息的传播(Chan & Hu, 2023;Latif et al., 2023;Li et al., 2023),这可能造成对学生所呈现信息的偏见或者操控。
依赖人工智能进行学术或社交互动可能会减少师生面对面交流的频率,从而妨碍学生必要社交技能的发展。必须在人工智能和人际互动之间取得一个显著平衡,以促进全面的教育体验(Kondo et al., 2023;Zumsteg & Junn, 2023)。
此外,ChatGPT可能无意中生成不准确或不适当地呈现特定文化或身份群体的内容,因而凸显了对人工智能语言模型开发中持续改进和敏感度维护的必要性(Busch et al., 2023)。
\section*{研究}
ChatGPT具备高效的数据集分析、自动代码生成、全面文献综述和简化实验设计流程的能力(Dwivedi et al., 2023;Li et al., 2023)。这些能力凸显了它在加速研究发现与创新方面的潜力。然而,文献讨论了可能生成误导信息的问题( n = 8 \mathrm{n}=8 n=8),或可能加剧和延续刻板印象。例如,AI生成内容中虚假引用的归属问题导致信息虚假,进而降低对学术资源的信任(Curtis, 2023)。
在学术出版物中引入人工智能存在可能取代人类作者并破坏他们专业价值的风险,这可能会影响研究的可信度。诸如O’Connor and ChatGPT (2023) 一文中所涉及的联合署名观点挑战了以人为核心的学术出版署名的既定核心价值(da Silva, 2023)。
有些会议允许在撰写论文时使用ChatGPT,但前提是将ChatGPT本身作为实证研究的对象(例如,ICML, 2023)。另一方面,一些研究界,如计算语言学协会(ACL, 2023),则基于特定准则允许使用ChatGPT。
\section*{行政管理}
只有四篇文献讨论了人工智能在高等教育机构行政管理中的应用。四项研究涉及了恶意使用和虚假信息危害。从积极角度看,ChatGPT能显著减少在处理申请者咨询、协助学生选课等行政任务上所花费的时间(UNESCO IESALC, 2023)。这种在行政职能上的高效不仅优化了运营流程,也使工作人员能够将更多精力投入到需要人性化关怀的任务上,从而进一步提升教育机构的整体效能。
然而,也有关于如何公平、可靠和透明使用ChatGPT的担忧。利用ChatGPT进行录取过程可能会引入偏见,尤其是当其训练数据基于反映过往不平等现象的历史数据时(Fischer, 2023;Sharma et al., 2023)。为确保公平、透明和问责,必须向申请者明确说明人工智能在评估过程中如何被运用以及决定其录取或拒绝时所考虑的具体因素。
此外,在录取决策中使用人工智能算法也存在无意中偏向某些特征或背景的申请者的风险,这可能会影响大学内多样性和包容性努力(Busch et al., 2023;Fischer, 2023)。数据隐私和安全问题同样至关重要。为了避免无意中造成歧视,各机构应积极评估并解决人工智能模型训练数据和决策过程中的任何偏见,努力为所有申请者提供平等机会。
\section*{结论}
我们关注的文章时间范围为极短的一段时间,即2023年前7个月,但涵盖了用英文、中文及日文写作的文献。鉴于ChatGPT主要基于英语数据训练(Brown et al., 2020),因此了解非英语国家在先进人工智能技术讨论中的观点具有重要意义。然而,我们的综述显示,尤其在中文和日文中,发表的学术和研究文章较少。
我们的范围界定性综述表明,现已有文献开始关注生成式人工智能,尤其是ChatGPT在教育中的伦理影响,其中部分文献集中探讨高等教育。大多数论文为讨论性作品,但也存在一些初步的实证研究。这些研究工作所强调的伦理问题主要涉及学术诚信、考核问题和数据保护。
生成式人工智能在学习者中越来越广泛的使用引发了有关学术诚信、作者身份定义、考核方法及其他教学法影响的问题(Li et al., 2023;Ojha et al., 2023)。它还影响了研究人员如何开展研究和生成研究成果,以及如何在录取、招聘或教育机构的管理运营中做出决策(Fischer, 2023;Masters, 2023a;Sharma et al., 2023)。此外,人工智能在教育中的不断融合甚至引发了关于传统实体教育机构持续相关性的问题(Sharples, 2023)。因此,进一步讨论和评估在教育机构中实施ChatGPT(尤其在教学、学习、研究及行政管理方面)的伦理影响至关重要。
我们的分析强调了对使用生成式人工智能/ChatGPT在教育中的伦理问题予以关注的迫切性。各利益相关者之间的合作对于建立明确的准则、保护学生隐私和促进人工智能负责任使用至关重要。通过如此操作,人工智能能够在不损害基本原则的前提下促进教育和研究的发展。