Can students without prior knowledge use ChatGPT to answer test questions? An empirical study

Can students without prior knowledge use ChatGPT to answer test questions? An empirical study

基本信息

2023-10-18发表在ACM Transactions on Computing Education

博客贡献人

徐宁

作者

Abdulhadi Shoufan

摘要

  随着全球对ChatGPT的巨大关注,教育领域出现了兴奋和怀疑的态势。要正确评估ChatGPT对教育的影响,了解它在帮助没有先前知识的学生回答评估问题方面的潜力至关重要。本研究旨在回答这个问题以及问题类型的影响。我们对计算机工程专业的学生进行了多次实验(实验组:n = 41到56),要求他们在学习相关主题之前使用ChatGPT回答先前的测试问题。然后将他们的得分与先前学期在测验或考试环境中回答相同问题的学生的得分进行比较(对照组:n = 24到61)。结果显示,效果大小范围很大,从-2.55到1.23不等,具体取决于问题类型和内容。实验组在回答代码分析和概念性问题方面表现最佳,但在代码完成和涉及图像的问题方面遇到了困难。另一方面,代码生成任务的表现不一致。总体而言,ChatGPT组的答案略低于对照组的答案,效果大小为-0.16。我们得出结论,至少在本研究领域,ChatGPT尚未准备好成为没有足够背景知识来评估生成答案的学生的可靠依赖。我们建议教育者尝试使用ChatGPT,并教育学生有关有效提问技巧以及如何评估生成的回应。这项研究为了解ChatGPT在教育中的能力和局限性提供了见解,并为未来的研究和发展提供了信息。

目前研究存在问题:
  • 关于ChatGPT对学术诚信的影响:未调查学生是否可以在事先没有学习的情况下使用ChatGPT来回答测试问题.
  • 未评估问题类型对ChatGPT性能的影响:只有测试了ChatGPT对多模态问题的表现能力,才能够知晓学生处理对应复杂问题时,ChatGPT是否能够提供有效的帮助.
本文所研究的问题:
  • ChatGPT能否帮助没有先验知识的学生回答考试问题?
  • 问题类型对ChatGPT的回答表现有何影响?
实验方法:

在这里插入图片描述

图1. 研究方法
本文的研究背景:
  • 本文的学生参与的课程均为嵌入式系统课程,以主动学习的方式使用笔记本电脑,硬件工具包和有关嵌入式的集成开发环境进行教学,课程注重概念学习和实践经验.最后课程所有的考试都在计算机上使用学习管理系统(LMS)进行,该课程的所有测试问题都由作者设计.
本文的实验组,对照组设置:
  • 对照组:上学期该课程的完成了同一个评估测验的学生,根据测验问题的不同,参与人数区间在24-61
  • 实验组:在本学期参与该课程考试的56名学生,在学期初开始学习相关内容前,就使用ChatGPT回答了对照组去年所完成的评估测验.
  • 实验设置:对照组去年的所有测试均在内网计算机上完成,无法访问任何网络资源.实验组在此门课程之前几乎都未使用过ChatGPT.
本文的问题设置根据:
  • 提供给学生的测试问题共有20个,其中Q1到Q18是从对照组之前的测试中选择的.Q19和Q20是新的代码生成问题.所有测试均有计算机自动评分.

  • 测试问题选择原则:

    • 与测试问题相关的话题并未被实验组讨论过
    • 测试问题包含多种题型,如概念题,代码补全题,代码分析题,代码生成题,图像题等.
    • 每个类型的测试题,至少选择两个问题.
    • 为了比较代码生成,代码分析,代码完成题的性能,这三类题都选择了相似或相同的问题.
  • 20个问题被划分到4个小测验中,分时间在课程开始前让学生使用ChatGPT完成对应测试.本文主要在相同的测试中增加类似类型的问题,每个测试的侧重点不同.

    • 测试一:代码完成题和代码生成题
    • 测试二:代码分析题,判断对/错题
    • 测试三:有关图片的题目
    • 测试四:概念题
数据收集与处理
  • 对于代码生成问题:通过在嵌入式集中平台编译代码,并在硬件板上运行的方式评估

  • 对于其他问题,本文由专家审查学生的回答,筛选出其中使用ChatGPT回答的问题,其中的有效回答不到56个.

  • 从LMS中提取成绩数据,并将其标准化.标准化的意义在于可以比较ChatGPT组和对照组的表现,以及不同类型的问题之间的表现.

  • 采用Python对数据进行分析.包括对数据进行频率分析;95%的置信区间进行多次t检验,比较实验组和对照组的表现;使用t检验来比较不同类型的问题;

  • 实验组和对照组之间的效应大小(effect size)使用Cohen’s d进行计算和报告.

    • Cohen’s d 是教育研究中常用的一种效果大小统计量度,用于量化两组之间的差异。计算方法是将两组均值之差除以集合标准差。所得数值表示两组均值之间的标准化差异,数值大于 0.8 或小于-0.8 表示效应大小较大。Cohen’s d 对于比较使用不同测量方法或量表的不同研究结果非常有用。

    • 效应大小(effect size)是教育研究中的一个重要测量指标,因为它提供了关于两组之间差异的实际意义的信息。它允许研究人员确定两组之间的差异是否大到足以在现实世界中产生意义。效应大小还可以帮助研究人员比较使用不同测量方法或量表的不同研究的结果。

      • 小效应: d ≈ 0.2

      • 中效应: d ≈ 0.5

      • 大效应: d ≈ 0.8

      • 效应大小的正负值表明了实验组的是否高于对照组,分别表示出积极\消极效应.

实验结果
  • 实验组学生回答问题的表现
    • 如下表1所示,分别给出了针对于20个问题,实验组和对照组的平均得分,标准差,t-检验结果,以及每个问题的效应大小.由表可知除去Q12,Q15的t-检验p值大于0.05以外,其余的问题上对照组和实验组的表现上都存在显著差异,特别在(Q1、Q2、Q13、Q16、Q17和Q18)6个问题上其效应大小为较大的负值,说明这几个问题上实验组的表现明显差于对照组.且实验组只有在Q9上有显著的正效应.
表1. 学生成绩、t-检验结果和效应大小

在这里插入图片描述

​ 下图2中给出了每道题的效应大小值,直接说明了每道题使用ChatGPT的效果大小.

在这里插入图片描述

图2.使用ChatGPT解决每个问题的效果大小,从小到大

​ 而在下图3中,显示了对照组和实验组的平均分数分布,可以看出实验组对一半以上的问题的得分超过了0.9.在图4中展示了实验组在每道题上的平均得分,其中有6个问题得分在0.25以下.在表2中总结了针对Q1到Q18的综合测试结果,其效应大小为-0.16,说明整体上对照组在这些问题上略微优于实验组,但优势并不显著。这其中的原因也包括了实验组中不同题型的得分差距较大.

在这里插入图片描述

图3.实验组和对照组的平均分数分布

在这里插入图片描述

图4.实验组每道题的平均得分
表2.对照组和实验组Q1到Q18的整体得分表现

在这里插入图片描述

  • 问题类型对实验组答题效果的影响

    ​ 在图5中展示了同一类型的所有问题的平均分数,并对合并类型后的题目进行合并t检验以得到不同类型的题目的效应大小,依次得到表3,关于不同类型题目的四项联合检验结果,可以看出实验组在概念理解和代码分析上优于对照组,但在基于图像类和代码完成部分的题目效果与对照组差距较大.

    在这里插入图片描述

图5.每个问题类型的实验组与对照组的平均得分。问题分类如下:基于图像(Q1-Q3),概念(Q4-Q13, Q18),代码分析(Q14, Q15),代码完成(Q16, Q17),代码生成(Q19, Q20)。注意,控制组没有代码生成问题。
表3.每个问题类型的组合测试结果

在这里插入图片描述

​ 在表4中,本文比较了代码分析(Q14,Q15)和代码生成(Q20)的性能对比,在以Q20为基准的情况下,可以看出无论是分开比较还是合并比较,实验组使用ChatGPT在代码分析上的表现优于代码生成.在表5中则比较了代码完成(Q16)和代码生成(Q19)上的性能对比,说明了使用ChatGPT在代码生成的表现优于代码完成.即代码分析>代码生成>代码完成.

表4.实验组在代码分析和代码生成方面的性能对比

在这里插入图片描述

表5.对照组在代码完成和代码生成方面的性能对比

在这里插入图片描述

问题回答

​ 试验后针对于开头提出的两个问题的回答

  • ChatGPT能否帮助没有先验知识的学生回答测试问题?

    • 在表2中可看出,实验组的学生在面对以往相同的考题,没有学习过的情况下使用ChatGPT最后的平均的分数达到了0.63,略高于及格线.对照组的平均分数也只比实验组高出9%,说明普通学生只需使用ChatGPT而无需付出任何学习努力就能产生及格的作品。这也说明了当前ChatGPT对学术诚信和课程的评估方式的影响,之后的工作应需考虑如何重新评估学生,防止出现类似的学术不端.
    • 提示工程对于提高LLM响应的质量至关重要.而上文提及,实验组的学生在此之前几乎未使用过ChatGPT,即学生给ChatGPT的问题描述可能并不是最适合的,可能只是将问题复制粘贴过去,这也是导致在某些类型的问题上ChatGPT回答较差的原因.同时也会存在学生误解了ChatGPT的回答,可能ChatGPT给出的解决方法是正确的,但并不是题目所期望的解决方法,这也导致了较差的成绩.因此教导学生使用一些高级提示技巧,例如重复询问,COT等方法来获取更有效的ChatGPT回答或许是一种有效的提高ChatGPT在课程中的性能的方法.

    总的来说,ChatGPT可能为未准备的学生提供一些支持,但在评估中仍存在一些挑战,尤其是在涉及特定类型问题或主题的情况下。这突显了在教育中使用ChatGPT时需要慎重考虑的问题,包括对评估方法的调整以及对学术诚信的关注.

  • 不同问题类型如何影响ChatGPT的回答性能?

    • 代码分析类

      • ChatGPT对于代码分析的行为不一致。它可以接收相同的提示但提供不同的答案。
      • 没有先验知识的学生可能会被ChatGPT的回应误导。
      • 学生在代码分析问题中表现良好,但在两个代码分析问题之间存在得分差异,原因是学生在与ChatGPT的互动中被误导。
    • 代码生成类

      • 学生在代码生成问题上呈双峰分布的表现,对Q19的答案大多正确,对Q20的答案大多错误,因为Q19中给出了一些示例。
      • ChatGPT在代码生成中表现不一致,有时能够正确生成较长的代码,却在较短的代码中遗漏基本的编程概念。
      • 没有先验知识的学生可能会被ChatGPT的响应误导。
    • 代码完成类

      • 代码完成任务对学生和ChatGPT都是具有挑战性的任务,可能涉及更长、更受限制的提示。
      • 学生会选择使用ChatGPT从头生成代码,但生成代码和代码填空题目之间存在显著差异.
      • 没有先验知识的学生可能会被ChatGPT的响应误导。
    • 概念问题类

      • ChatGPT在回答概念性问题方面是有帮助的。
      • 问题类型和大小(一个问题内涉及多个概念)可能影响ChatGPT在概念性问题上的表现。
      • 从这里也体现出了重复对ChatGPT提问可能有助于学生发展提示工程技能。
    • 图片问题类

      • ChatGPT不能分析图像,学生似乎不愿尝试向ChatGPT解释图像。
      • 在带有图片的问题上,ChatGPT的性能通常较差,性能取决于答案与图像内容的关系(若关联不大则效果较好)。

    总体而言,问题类型的复杂性和性质似乎会对ChatGPT的性能产生影响。例如,对于需要更多创造性思维或对上下文敏感的问题,ChatGPT可能表现不如对于更直接、基于事实的问题。此外,问题的长度和复杂性也可能是影响因素。重复使用ChatGPT可能会帮助学生逐渐发展出更有效的与模型交互的技能。

相关知识链接

下载

论文下载

总结

局限

  • ChatGPT的局限性: ChatGPT是强大的聊天机器人,但在回答高级和特定的大学水平问题方面存在局限性。学生应该使用ChatGPT学习,但需要了解其局限性。教师应该指导学生正确使用ChatGPT。
  • 学术诚信的挑战: 使用ChatGPT可能帮助学生完成作业和测试,但这也带来了学术不端的风险。教师可以通过选择特定类型的问题,如包含图像的问题,来减少通过ChatGPT作弊的可能性。
  • 问题顺序的影响: 控制组和实验组的问题顺序不同,这可能影响了性能。然而,由于问题是随机排列的,这可能减轻了顺序对结果的影响。

[启发]

  • 本文所使用的效应大小(effect size),提供了关于对照组和实验组之间差异的实际意义的信息,可以作为重要的衡量指标.
  • 通过划分不同题目类型的方法去衡量ChatGPT的性能也可以采用在PythonBot中.
    的,这可能减轻了顺序对结果的影响。

BibTex

@article{10.1145/3628162,
author = {Shoufan, Abdulhadi},
title = {Can Students without Prior Knowledge Use ChatGPT to Answer Test Questions? An Empirical Study},
year = {2023},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
url = {https://doi.org/10.1145/3628162},
doi = {10.1145/3628162},
abstract = {With the immense interest in ChatGPT worldwide, education has seen a mix of both excitement and skepticism. To properly evaluate its impact on education, it is crucial to understand how far it can help students without prior knowledge answer assessment questions. This study aims to address this question as well as the impact of the question type. We conducted multiple experiments with computer engineering students (experiment group: n = 41 to 56), who were asked to use ChatGPT to answer previous test questions before learning about the related topics. Their scores were then compared with the scores of previous-term students who answered the same questions in a quiz or exam setting (control group: n = 24 to 61). The results showed a wide range of effect sizes, from -2.55 to 1.23, depending on the question type and content. The experiment group performed best answering code analysis and conceptual questions but struggled with code completion and questions that involved images. On the other hand, the performance in code generation tasks was inconsistent. Overall, the ChatGPT group’s answers lagged slightly behind the control group’s answers with an effect size of − 0.16. We conclude that ChatGPT, at least in the field of this study, is not yet ready to rely on by students who don’t have sufficient background to evaluate generated answers. We suggest that educators try using ChatGPT and educate students on effective questioning techniques and how to assess the generated responses. This study provides insights into the capabilities and limitations of ChatGPT in education and informs future research and development.},
note = {Just Accepted},
journal = {ACM Trans. Comput. Educ.},
month = {oct},
keywords = {large language models, ChatGPT}
}
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值