Beyond ChatGPT: A conceptual framework and systematic review of speech-recognition chatbots

图学习小组

已于 2024-04-30 19:43:54 修改

阅读量74

点赞数

文章标签： chatgpt 机器人

于 2023-11-19 16:10:05 首次发布

本文链接：https://blog.csdn.net/qq_41200212/article/details/134491806

版权

Beyond ChatGPT: A conceptual framework and systematic review of speech-recognition chatbots for language learning

博客贡献人

柴进

作者

Jaeho Jeon a, Seongyong Lee b, Hohsung Choe

摘要

本文旨在了解不同类型的语音识别Chatbot用于语言学习，以及Chatbot提供的功能支持。

通过对37项关于使用Chatbot的实证研究（包括预定义的对话系统到使用人工智能技术的聊天机器人），本文提出了一个概念框架，包括Chatbot的三个关键组成部分：目标导向、具象化和多模态。并使用这个框架作为分析工具，确定并定义了八种Chatbot类型。同时从该框架出发，根据是否含有某个组件派生出共12种功能支持（affordances）。最后，本文还提出了具体的见解，旨在探究未来Chatbot的研究和开发应该如何在目标导向、具象性和多模态方面进行。

问题定义

一方面，AI技术的进步，特别是自动语音识别技术的发展，提高了聊天机器人与语音学习者之间更类似于人类互动的能力。另一方面，众多研究用实证证据表明了使用语音识别技术的聊天机器人具有积极效应。

然而，尽管具有不同特征的聊天机器人可以为学习者提供不同的交互体验，但以往的研究对聊天机器人的概念化比较松散，忽略了不同聊天机器人的共同或独特的设计特征以及相应功能带来的教育启示。有以下几点限制：

对各研究中的Chatbot难以进行严格和准确的比较
考虑Chatbot积极/消极影响时，仅关注到交互性的作用，而忽视了Chatbot额外引入的其他功能
缺乏Chatbot类型和功能的详细信息，实际应用时难以选择针对不同教育目的的Chatbot

因此，本文提出一个概念框架，对Chatbot进行分类，并概括每种类别Chatbot所能提供的具体功能。并围绕着三个研究问题：

RQ1: 如何对chatbot进行分类？

RQ2: 目前在研究中开发和使用的chatbot具体功能有哪些？

RQ3: 鉴于chatbot的现状，未来发展和研究的潜在领域是什么？

内容综述

聊天机器人

聊天机器人被广泛定义为虚拟代理，可以通过自然语言处理输入，实现与用户的交互。根据历史研究总结得出，聊天机器人有以下特点：

交互性(interaction opportunities)

学生与Chatbot的互动，同学生与人类对话者的互动相当，体现在对话语言的复杂性、流利度、发音、词汇和语法的质量上。
减少焦虑(anxiety-reduction)

不会担心对话过程中出错，更自在
重复性(repetitive practice)

可以轻松地重复同样的话语或任务
以学生为中心(student-centeredness)

chatbot可作为私人导师，根据学生节奏提供对话服务，根据学生语言熟练程度给出反馈
交流真实性(communicative authenticity)

现实场景
普遍性(ubiquity)

随时随地

以往研究的综述

关于聊天机器人的系统综述从两个不同且互补的角度进行了探讨：以设计为中心，以教育学为中心。

以设计为中心

主要集中在识别用于语言学习的聊天机器人的不同类型和特征。

以教育学为中心

主要介绍聊天机器人在教学过程中充当的角色，以及Chatbot为语言学习提供的好处，以及样本研究。

而本文在系统研究中，采用了以设计为中心(RQ1)和教育学(RQ2)视角相结合的综合方法。

研究方法

数据收集

按照PRISMA指南的分析方案进行了系统的文献综述，选择下主要的教育研究学术数据库：ProQuest、Web of Science和Scopus。

PRISMA《系统综述和荟萃分析优先报告的条目》:一套针对系统综述（systematic review）的研究质量而设立的标准规范，适用于对已发表的包含原始数据资料的文献进行的综述，旨在提升系统综述的科学性与可比性

本文的研究重点是Chatbot本身以及学生使用它们的体验，而不是使用Chatbot进行语言学习的结果，通过对教育技术和语言学习领域的高引用学术期刊中进行人工搜索，选择了符合以下四个标准的论文:

(1)使用了关于语言教育的实证研究;

(2)使用语音识别聊天机器人;

(3)包含足够的聊天机器人设计信息;

(4)包含足够的细节，清晰地描述了学生对聊天机器人的体验或看法。

针对初筛后的文章，进一步过滤了仅通过文本对话的Chatbot的研究，选用采用语音识别Chatbot的研究，最终确定了37篇文章纳入本综述。

方法描述

采用定性分析来研究前文提到的两个RQ。对于RQ1，本文开发了一个概念框架，并基于该框架定义了八种类型的Chatbot。并将RQ1的结果用作RQ2的分析框架。对于RQ3，本文基于上述RQ的结果为Chatbot的开发和研究提供了建议。

根据时间顺序对这37篇文章进行排序，以迭代的方式进行两两比较，最终确定了Chatbot的三个分类特征：目标导向(goal-orientation)，具象化(embodiment)，多模态(multimodality)

结论

概念框架与Chatbot类型

在这里插入图片描述

目标导向(goal-orientation)

是否为了满足特定语言学习者群体的需求而设计的。不包含任何用户都可使用的商业Chatbot，例如个人助理

具象化(embodiment)

是否具有某种类型的虚拟身体。对于没有屏幕显示的智能扬声器，不具有具象化的特征。

多模态(multimodality)

多模态指Chatbot与学习者对话发生的多种沟通渠道，如果聊天机器人除了音频模态之外还具有其他模态(文本、图片、视频等)，则认为该Chatbot具有多模态。

框架的三个组成部分不会相互排斥，能够以独立的方式应用于Chatbot。基于这个框架，本文识别出八种潜在的语音识别Chatbot，并统计了使用每种类型Chatbot的研究数量，如下表所示。

在这里插入图片描述

GEM框架下Chatbot实现的功能

与目标导向相关的功能

(1)情景任务(situational tasks)

具有特定角色的Chatbot使语言学习者能够参与特定主题的对话，使学习者能够用目标语言练习特定的表达。

(2)教学脚手架(instructional scaffolding)

为学生提供"“教学脚手架”"，帮助学习者制定适合给定主题的目标表达。也就是说，当学生提供偏离主题的话语或错误的答案时，这些聊天机器人采用各种策略来解决偏离目标的话语，而不是简单地重复标准的备用意图回应(例如，“我不明白”或“你能重复一下吗?”)。

(3)不同任务难度(varied task difficulty)

Chatbot根据学习者的语言水平或需求为学习者提供了一系列任务供其选择，从而实现了个性化学习。

(4)灵活定制(flexible customization)

通过增强Chatbot使用的大语言模型，或设计Chatbot的交互功能，使得学生与Chatbot有私人定制和方便的对话体验。

与具象性相关的功能

(1)沉浸式环境

与具象化的Chatbot进行互动使学生能够体验身临其境的环境。

(2)个人纽带的形成

学生对具象化的Chatbot会产生个人情感，会认为舒适、可靠、可爱等。

与多模态相关的功能

多模态方面以实时文本的形式实现，该文本将聊天机器人与学生之间的交互显示为屏幕上的文本。与此同时，在一些研究中，多模态已经被实现为在屏幕上出现的不适当的话语中划线或下划线(Hwang et al .， 2022)，或者作为辅助图像和视频来帮助学生理解互动内容

(1)自我监控和自我纠正

通过屏幕上学生话语的实时文字记录，能够监测和纠正学生的不当言论，例如纠正发音错误或表达错误。

(2)理解支持

通过在屏幕上显示Chatbot的语音文本或在屏幕上提供与交互内容相关的图像、声音和视频，能够帮助同学将多模态的信息联系起来，可以为学习者提供理解支持

(3)信息探索

可促使学生深入探索与语言任务相关的，并且感兴趣的主题，鼓励学生进行更多的自主学习，而不是被动地接受给定的信息。

基于GEM框架下的Chatbot未来开发和研究意义

在这里插入图片描述

扩展关于具象性聊天机器人对学习影响的内容

一般而言，对话者的外表、非语言提示、面部表情和手势，会影响学习者与对话者的互动体验。而当对话者变为“计算机对话者”时，这也可能成立。而本文研究的以往文章中，仅有15项采用了具象化Chatbot

因此本文认为，从(1) 具象性是否促进了积极的互动或学习成果，到(2) 哪种类型的聊天机器人的外观和行为促进了互动体验和学习成果，这些问题都可以在未来进行更多更深入的研究。

探索多样化的多模态设计

鉴于语言学习者使用广泛的视觉资源来处理语言输入的重要性，可以得出，Chatbot结合不同的视觉模式也可以更有效地促进语言学习

本文认为未来可以研究，(1) 如何在使用Chatbot时有效地将视觉模式与文本和音频模式结合起来，(2) 以及它对语言学习的影响。关于这条探究线，可以考虑多媒体学习认知理论原则。

从选择现有Chatbot到开发机器人

从以往的研究中可以发现，对于非目标导向的Chatbot在日常环境中越来越容易获得，也便受到了越来越多的关注，并且预计使用非目标导向的Chatbot会越来越多

因此确定如何将这一系列通用的Chatbot用于教学目的将是未来研究的一个关键领域。本文指出可从以下问题出发：(1) 如何利用大型语言模型的api来开发专门用于促进语言学习的聊天机器人，(2) 研究教育者如何通过有效的提示和培养语言学习的元认知策略，来帮助学生从使用大模型中获得最大的收益。

总结

亮点

设计了一个由三个部分组成的概念框架，并根据该框架对Chatbot的显著特征进行系统分类，同时还根据该框架总结了不同特征下能够实现的作用。

[不足]

对以往研究的综述，缺少Chatbot在教育领域发展过程的说明。
没有探求Chatbot的这些不同特征及功能对教学成果的影响，及各特征间的相互作用

[启发]

可以深入了解“教学脚手架”这一功能如何实现的，解决现目前学生与Chatbot对话时脱离场景的问题，让Chatbot的反馈更优，诱导目标学习者再次对话。
Chatbot提供不同任务难度的功能，可以应用为学生先练习对应场景的听力内容，然后进行自由对话阶段。对于不同任务难度而言，这和场景内容的把控以及提示词的设置有关。

BibTex

@article{jeon_beyond_2023,
	title = {Beyond {ChatGPT}: {A} conceptual framework and systematic review of speech-recognition chatbots for language learning},
	volume = {206},
	issn = {03601315},
	shorttitle = {Beyond {ChatGPT}},
	url = {https://linkinghub.elsevier.com/retrieve/pii/S0360131523001756},
	doi = {10.1016/j.compedu.2023.104898},
	journal = {Computers & Education},
	author = {Jeon, Jaeho and Lee, Seongyong and Choe, Hohsung},
	month = dec,
	year = {2023}
}