引言
在科学传播领域,有效的解释对于缩小专家和普通大众之间的知识鸿沟至关重要。然而,如何让复杂的科学概念变得通俗易懂,一直是一个巨大的挑战。近年来,大型语言模型(LLM)的出现,为我们提供了新的可能性。本文将探讨 ChatGPT 等 LLM 在解释能力方面的表现,以及它们与人类专家相比的优劣。
研究背景与方法
本研究基于 WIRED 杂志的"5 Levels of Explanation"YouTube 系列视频数据集。该数据集包含了专家向不同背景的人解释同一个科学概念的对话,从儿童到同行专家不等。研究者选取了专家与大学生之间的对话进行分析,因为这个层级能够在深度和通俗性之间达到较好的平衡。
研究采用了三种不同的策略来生成解释者的回应:
- S1 (基线): 使用人类专家的原始回应
- S2 (GPT4 标准): 给予 GPT4 之前的对话上下文,让其生成回应
- S3 (GPT4 + EA): 除了对话上下文,还给予 GPT4 一系列解释行为(Explanatory Acts, EA)作为回应的框架
研究者招募了三位评分员,对这三种策略生成的回应进行评估。评估维度包括:连贯性、简洁性、对话性、适当性、回应性、深度、主动引导性和互动性等8个方面。评分员还需要对三种回应进行排序,并给出理由。
研究结果
研究结果令人意外:
-
GPT4 生成的回应普遍优于人类专家的原始回应。在排名中,S2(GPT4 标准)有49%的概率被评为第一,而人类专家的回应(S1)有59%的概率被评为最后。
-
S2(GPT4 标准)略优于 S3(GPT4 + EA)。35%的情况下 S2 排第一而 S3 排第二,反之则是24%。
-
S2 相对于 S3 的主要优势在于简洁性。评分员认为 S3 的回应"有点太长"、“过于啰嗦”。平均而言,S3 的回应比 S2 多出约10个词。
-
S3 在某些方面表现更好,特别是在结构性和互动性上。评分员认为 S3 “主动引导对话”、“通过后续问题吸引解释对象”、“提出引人深思的问题,促进更深入的对话”。
讨论与未来展望
这项研究结果表明,在科学传播领域,专家与普通受众之间仍然存在巨大的沟通障碍。虽然 LLM 生成的回应优于人类专家,但这并不意味着 LLM 应该取代专家的角色。相反,这项研究揭示了 LLM 如何增强专家解释能力的潜力。
研究结果强调了简洁性的重要性。S2 之所以优于 S3,很大程度上是因为它的回应更加精炼。这表明,将解释分割成易于理解的小块信息对于有效沟通至关重要。
另一方面,S3 在结构性和互动性方面表现出色,特别是在生成引人入胜的后续问题时。这说明,当 LLM 被明确指示包含某些类型的问题(如概念补充问题或理解测试问题)时,它能够创造出更具吸引力和指导性的对话。
未来的研究方向可以包括:
-
设计能够支持人类专家的界面,让 LLM 实时辅助专家调整解释策略。
-
进一步研究有效的解释策略,将其提炼为一系列解释行为,供 LLM 执行。
-
开发能够自动个性化解释的系统,根据不同受众的偏好调整对话结构和风格。
-
探索如何将 LLM 的优势(如广泛的知识面和灵活的表达)与人类专家的优势(如深度专业知识和真实经验)相结合,创造出更优质的科学传播体验。
总的来说,这项研究为我们理解和改进科学传播开辟了新的视角。它不仅展示了 LLM 在解释复杂概念方面的潜力,也为人机协作在科学教育领域的应用提供了新的思路。未来,我们有望看到更多结合 LLM 与人类专业知识的创新科学传播方式,让科学更加亲民,让知识传播更加高效。
参考文献
-
Achiam, J., et al. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774.
-
Li, Y., et al. (2023). Curriculum-Driven Edubot: A Framework for Developing Language Learning Chatbots Through Synthesizing Conversational Data. arXiv preprint arXiv:2309.16804.
-
Wachsmuth, H., & Alshomary, M. (2022). “Mama Always Had a Way of Explaining Things So I Could Understand”: A Dialogue Corpus for Learning to Construct Explanations. arXiv preprint arXiv:2209.02508.