The impact of chatbots based on large language models on second language vocabulary acquisition
基本信息
博客贡献人
柴进
作者
Zhihui Zhang, Xiaomeng Huang
标签
大语言模型,对话机器人,第二语言习得,词汇学习
摘要
近年来,大语言模型(LLMs)已经在自动化和增强教育任务方面展示了巨大的潜力,能够有效地捕捉人类语言的复杂性和多样性。本文旨在探究基于大语言模型的对话机器人在第二语言词汇学习方面的影响,将52名外语学生分为两组,实验组使用基于LLMs的聊天机器人,对照组则不使用。两组学生在八周的时间里学习相同的目标单词,待结束后进行评估,评估方式包括系统观察与定量测试。
研究结果表明,使用基于LLMs的人工智能聊天机器人可以显著帮助学生在第二语言学习过程中获得接受性和生产性词汇知识。另外,本研究还得出,聊天机器人有助于长期保留生产性词汇,并促进附带词汇的学习。
问题定义
以往的研究表明,对话机器人能提供即时、实时的交互,增强了用户的整体学习体验。而这些研究往往集中于学习成果和性能改进上,缺少检验聊天机器人作为语言学习工具有效性的实证研究。当前随着大语言模型技术的发展,基于LLMs的对话机器人具有模仿人类语言复杂性的能力,以及提供个性化语言帮助的潜力,有期望弥合互动式教学和实际教学支持的差距。
因此,本文利用基于LLMs的聊天机器人来进行实证研究,探究其在提高语言能力和促进学生进行自我调节学习方面的功效和潜在优势。
整篇文章集中讨论的研究问题如下:
- 对话机器人在多大程度上增强了第二语言学习者的接受性词汇知识
- 对话机器人在多大程度上增强了第二语言学习者的生产性词汇知识
- 对话机器人如何促进第二语言学习者的附带词汇学习
相关知识
接受性词汇:指学习者能够理解和认识的词汇,但不一定会主动使用或表达
生产性词汇:指学习者能够在口语或书面语中积极使用和应用的词汇。通常,接受性词汇比生产性词汇更广泛
附带词汇学习:指学习者在从事特定任务或活动时无意或非有意地习得新词汇的过程
方法
实验设计
本研究采用定性和定量的混合方法,来评估对话机器人(LLMs)对英语学习者词汇习得的影响。研究设计遵循标准实验框架,有两个不同的实验条件,都暴露在相同的英语语言学习材料中。研究实验设计如图1所示。
实验组使用对话机器人作为词汇习得的学习支持工具,对照组使用替代的数字资源进行词汇学习。
实验开始之前,所有参与者都完成了初步的词汇评估。同时,每两周进行一次词汇测试,以评估参与者的学习进展。八周后,参与者进行两项即时词汇测试:接受性测试和生产性测试。最后在初始测试后两周再进行两次后测,以评估词汇保留情况。
该研究结合了系统的观察来监测和记录实验组和聊天机器人(llm)之间的互动。记录交互频率、问题数量和问题类型等参数。
对话机器人设计
设计了一个对话机器人系统,包含三个主要的组件:后端、搜索服务、AI机器人。
后端提供必要的基础设施和支持,以支持聊天机器人的各种特性和功能。
搜索服务使得用户可以在对话机器人中搜索信息。该服务从数据库中检索信息,并将其清晰简洁地呈现给用户。可以从用户交互中学习,并随着时间的推移改进搜索结果
对话机器人负责利用自然语言处理和机器学习算法为用户提供对其查询的智能响应
学习场景
文章设计了学生使用对话机器人的四个不同场景:
-
问题支持:当学生遇到不熟悉的单词或概念时,对话机器人可以提供解释和示例来帮助他们理解。
-
练习支持:除了简单的定义和例子,还会提供一系列的教学活动,如测验和游戏,以帮助学生练习他们的语言技能,巩固他们所学的知识。
-
对话支持:对话机器人能够响应关于特定主题的对话,例如语法规则或特定词汇。或处理更一般的对话,比如问候和闲聊。
-
个性化学习:对话机器人可以使用学生以前互动的数据来定制他们对学生个人需求的回应。例如,如果学生的英语水平不高,对话机器人可以提供更简单、更容易理解的解释。如果一个学生反复询问一个特定单词的意思,对话机器人会提供提示和额外的支持,以帮助记住这个单词的意思。
为了提高聊天机器人理解和响应用户请求的能力,本文通过特定的prompt将对话机器人与其用户之间的对话分为预定义的主题,其中有四种正式语境被识别:
- 词汇学习:包含单词的meaning, usage, phrases, examples, synonyms, antonyms, and idioms
- 对话:包含 correct grammar, practicing English sentence formation, suggesting expressions, and conducting mock interviews.
- 文本生成:包含listing words with the letter “R”, creating stories, writing poems, and suggesting ideas for presentations.
- 测验: 包含multiple-choice, blank-filling, open-ended questions, and corrections
实验结果
EG与CG对比
该研究在实验结束后进行了即时测试。统计了实验组(EG)和对照组(CG)在接受性和生产性词汇测试中的均值、标准差、最大值和最小值。结果显示:
在生产性词汇检验中,CG的平均准确率为66.24%,EG的平均准确率为73.93%,EG比CG平均高出7.6%。
在接受性词汇测试中,CG的平均准确率为64.27%,EG的平均准确率为67.34%,EG比CG平均高出5.0%。
这些结果表明,EG在接受性和生产性词汇测试中的表现都明显优于CG。
生产性 | 接受性 | ||||
---|---|---|---|---|---|
CG平均准确率 | EG平均准确率 | EG-CG | CG平均准确率 | EG平均准确率 | EG-CG |
66.24% | 73.93% | 7.6% | 64.27% | 67.34% | 5.0% |
该研究还在参与者最初接触词汇材料一段时间后进行了延迟测试。结果显示:
在生产性词汇检验中,CG的平均准确率为55.55%,EG的平均准确率为67.95%,EG比CG平均高出 12.39 %。
在接受性词汇测试中,CG的平均准确度为53.65%,EG的平均准确度为58.37%,EG比CG平均高出4.7%。
说明在延迟测试中EG的表现也明显优于CG,并且EG的优势在生产性测试中更为明显。
生产性 | 接受性 | ||||
---|---|---|---|---|---|
CG平均准确率 | EG平均准确率 | EG-CG | CG平均准确率 | EG平均准确率 | EG-CG |
55.55% | 67.95% | 12.39 % | 53.65% | 58.37% | 4.7% |
EG系统观察
本文还研究了对话机器人的使用频率,以及学生与对话机器人之间互动的性质,包括学生所问问题的数量和类型。
在使用频率方面,EG中的所有学生每周使用聊天机器人的次数超过5次,并有76.92%的学生每周使用对话机器人的次数超过7次。此外,在评估周期间,对话机器人的使用频率呈上升趋势。
在问题数量方面,超过73.07%的学生平均每周提出20个以上问题,同时实验组对对话机器人的问询数量总体呈上升趋势。总结下来这些问题可分为:意义问题,示例问题,反义词和近义词问题,语境问题。
除此之外,实验组中有超过69.23%的学生学习了10个以上的非目标词汇,这表明对话机器人可以促进二语学习者的附带词汇学习。
相关知识链接
参考
总结
本研究考察了对话机器人在促进第二语言词汇学习中的作用,采用了定量和定性分析相结合的强有力的实证方法。研究结果肯定了LLMs对接受性和生产性知识习得以及附带词汇学习的积极影响,强调了它们在提高语言理解能力方面的重要作用。
亮点
- 进行了实证研究,证明了对话机器人在英语词汇学习方面具有积极影响。
- 设计对话机器人时,通过特定的prompt将对话机器人与其用户之间的对话分为预定义的主题,有助于对话机器人更好的理解用户的意图,给出更合适的响应。
[启发]
- 设置更合适的prompt,或根据上下文去学习生成更合适的prompt,使得对话机器人的响应更符合用户的需求
BibTex
@article{ZHANG2024e25370,
title = {The impact of chatbots based on large language models on second language vocabulary acquisition},
journal = {Heliyon},
volume = {10},
number = {3},
pages = {e25370},
year = {2024},
issn = {2405-8440},
doi = {https://doi.org/10.1016/j.heliyon.2024.e25370},
url = {https://www.sciencedirect.com/science/article/pii/S2405844024014014},
author = {Zhihui Zhang and Xiaomeng Huang},
keywords = {Large language models, Chatbot, Second language acquisition, Vocabulary learning}
}