ChatGPT 是比教授更好的解释者吗?-CSDN博客

本文链接：https://blog.csdn.net/weixin_36829761/article/details/140019120

在科学传播领域,有效的解释对于缩小专家和普通大众之间的知识鸿沟至关重要。然而,如何让复杂的科学概念变得通俗易懂,一直是一个巨大的挑战。近年来,大型语言模型(LLM)的出现,为我们提供了新的可能性。本文将探讨 ChatGPT 等 LLM 在解释能力方面的表现,以及它们与人类专家相比的优劣。

本研究基于 WIRED 杂志的"5 Levels of Explanation"YouTube 系列视频数据集。该数据集包含了专家向不同背景的人解释同一个科学概念的对话,从儿童到同行专家不等。研究者选取了专家与大学生之间的对话进行分析,因为这个层级能够在深度和通俗性之间达到较好的平衡。

研究采用了三种不同的策略来生成解释者的回应:

研究者招募了三位评分员,对这三种策略生成的回应进行评估。评估维度包括:连贯性、简洁性、对话性、适当性、回应性、深度、主动引导性和互动性等8个方面。评分员还需要对三种回应进行排序,并给出理由。

研究结果令人意外:

GPT4 生成的回应普遍优于人类专家的原始回应。在排名中,S2(GPT4 标准)有49%的概率被评为第一,而人类专家的回应(S1)有59%的概率被评为最后。
S2(GPT4 标准)略优于 S3(GPT4 + EA)。35%的情况下 S2 排第一而 S3 排第二,反之则是24%。
S2 相对于 S3 的主要优势在于简洁性。评分员认为 S3 的回应"有点太长"、“过于啰嗦”。平均而言,S3 的回应比 S2 多出约10个词。
S3 在某些方面表现更好,特别是在结构性和互动性上。评分员认为 S3 “主动引导对话”、“通过后续问题吸引解释对象”、“提出引人深思的问题,促进更深入的对话”。

这项研究结果表明,在科学传播领域,专家与普通受众之间仍然存在巨大的沟通障碍。虽然 LLM 生成的回应优于人类专家,但这并不意味着 LLM 应该取代专家的角色。相反,这项研究揭示了 LLM 如何增强专家解释能力的潜力。

研究结果强调了简洁性的重要性。S2 之所以优于 S3,很大程度上是因为它的回应更加精炼。这表明,将解释分割成易于理解的小块信息对于有效沟通至关重要。

另一方面,S3 在结构性和互动性方面表现出色,特别是在生成引人入胜的后续问题时。这说明,当 LLM 被明确指示包含某些类型的问题(如概念补充问题或理解测试问题)时,它能够创造出更具吸引力和指导性的对话。

未来的研究方向可以包括:

总的来说,这项研究为我们理解和改进科学传播开辟了新的视角。它不仅展示了 LLM 在解释复杂概念方面的潜力,也为人机协作在科学教育领域的应用提供了新的思路。未来,我们有望看到更多结合 LLM 与人类专业知识的创新科学传播方式,让科学更加亲民,让知识传播更加高效。

Achiam, J., et al. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.
Li, Y., et al. (2023). Curriculum-Driven Edubot: A Framework for Developing Language Learning Chatbots Through Synthesizing Conversational Data. arXiv preprint arXiv:2309.16804.
Wachsmuth, H., & Alshomary, M. (2022). “Mama Always Had a Way of Explaining Things So I Could Understand”: A Dialogue Corpus for Learning to Construct Explanations. arXiv preprint arXiv:2209.02508.