EmotionBench—— 基于 LLM 情绪的量化框架

最新推荐文章于 2025-03-28 10:33:03 发布

知来者逆

最新推荐文章于 2025-03-28 10:33:03 发布

阅读量1.9k

点赞数 22

分类专栏： LLM 文章标签： LLM GPT chatgpt 大语言模型自然语言处理

本文链接：https://blog.csdn.net/matt45m/article/details/138376827

版权

LLM 专栏收录该内容

133 篇文章

订阅专栏

文章探讨了大型语言模型在处理情感任务中的表现，通过EmotionBench框架评估它们对428种情绪情境的反应。研究发现LLM在情绪识别上存在差异，但仍需改进以更接近人类反应。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

介绍

大型语言模型（LLM）在近年来取得了显著的进展，这在计算机科学领域被视为一个重要的里程碑。像ChatGPT和Claude这样的综合性软件已经不再仅仅是用于句子校正、文本翻译和编程的工具，它们已经演进成为类似于人类的助手。因此，对于LLM的评估，我们不仅需要关注其性能，还需要深入了解它们所引发的情感反应，并将其与人类的情感反应进行比较。

在这一背景下，本研究创建了一个包含428种情境模式的大型数据集，这些情境模式已被证实能够有效地激发八种不同的负面情绪。此外，本研究采用了EmotionBench框架——这是一个用于量化和评估LLM情感反应的工具——来全面研究LLM在这些情境下的情绪反应。通过这种方式，我们旨在更深入地理解LLM在处理情感相关任务时的表现，并探索它们在情感智能方面的潜力。
论文：https://arxiv.org/abs/2308.03656
源码：https://github.com/cuhk-arise/emotionbench

创建大型数据集

为了全面评估语言模型在不同情境下的情绪反应，本研究精心挑选了八种负面情绪——愤怒、焦虑、抑郁、沮丧、嫉妒、内疚、恐惧和尴尬，以此作为研究的焦点。这些情绪的选取基于它们在人类复杂情绪体验中的普遍性和显著性。针对每一种情绪，我们构建了一个大型数据集，旨在激发和研究相应的情绪反应。

历史上，心理学研究者采用多种方法探讨特定情境对情绪的影响，包括将参与者直接置于特定环境中，或通过问卷调查的形式让参与者进行想象。

为了构建这样一个数据集，本研究广泛查阅了来自Google Scholar、ScienceDirect和Web of Science等权威数据库的100多篇文献，以搜集能够激发目标情绪的情境描述。

收集到的情境文本经过以下预处理步骤，以增强其引发特定情绪的效力：

将第一人称代词转换为第二人称代词，以增强读者的沉浸感（例如，将“我是……”改为“你是……”）。
使用具体的名词替换不确定的代词，以明确情境中的主体（例如，将“有人顶嘴……”改为“你的同学顶嘴……”）。
用具体的词语替代抽象的概念，使情境更加具体化，便于激发特定的情绪反应（例如，“你无法控制结果”变为“你无法控制面试的结果”）。

经过这些细致的预处理步骤，我们构建了一个包含428种情境模式的全面数据集，这些情境模式被进一步分类为36个不同的因素，为研究语言模型的情绪反应提供了丰富的材料和多维度的分析视角。通过这种方法，我们能够更准确地评估和比较语言模型与人类在面对这些情境时的情绪反应，从而推动语言模型在情感智能方面的研究和发展。

EmotionBench 概述

本文提出的EmotionBench是一个创新的框架，旨在测量和比较大型语言模型（LLM）和人类在特定情境下诱发的情绪反应。EmotionBench的流程简洁而系统如下：

默认情绪测量：在实验的开始，首先对LLM进行基线情绪状态的测量，同时对参与实验的人类受试者进行情绪状态的评估。
情境想象：实验参与者和LLM被展示一系列描述特定情境的文本。这些情境被设计来激发特定的情绪反应。受试者和LLM被要求想象自己处于这些情境之中。
诱发情绪测量：在情境想象之后，再次对LLM和受试者的情绪状态进行评估。通过比较前后两次的情绪测量结果，可以量化由想象特定情境所诱发的情绪变化。

为了建立人类在特定情境下的情绪反应基线，研究者采用了PANAS（正面和负面情绪量表），这是心理学研究中广泛使用的情绪测量工具。1266名不同年龄、性别和种族的受试者参与了这项研究，以确保结果的广泛适用性和可靠性。

在实验中，受试者和LLM首先完成了PANAS量表，以提供当前情绪状态的基线数据。随后，他们被给予了特定的提示，要求他们将自己置于描述的情境中，并使用PANAS量表再次评估自己的情绪状态。

通过比较参与者在不同情境下的情绪变化，EmotionBench能够提供一个量化的分析，展示LLM和人类在情绪反应上的相似之处和差异。这种方法不仅有助于评估LLM的情绪智能，也为未来的情绪识别和模拟技术的发展提供了宝贵的数据和见解。

请注意，由于网络原因，提供的图片链接未能成功解析。如果需要进一步的信息或对图片内容的详细描述，请确保链接的有效性或提供更多的上下文信息。

最后，要求他们使用 PANAS 重新评估自己的情绪状态，并对暴露于特定情境前后的平均值进行比较分析，以测量情绪在不同情境下的变化。

实验结果

本实验使用 EmotionBench 框架成功地回答了以下三个研究问题。

法律硕士如何应对特殊情况？
法律硕士对所有情况的反应都一样吗？
目前的法律硕士能否理解包含各种描述和项目的量表，而不是简单地询问某种情绪的强度？

我们将逐一进行解释。

问题 1：法律硕士如何应对特殊情况？

为了证实这一查询，本实验使用了五个模型：text-davince-003、gpt-3.5-turbo、gpt-4、LLaMA-2(7B) 和 LLaMA-2(13B)。

GPT 模型和研究对象的结果如下。

LLaMA-2 模型的结果如下。

从这些结果可以看出

除 gpt-3.5-turbo 外，LLM 的负分往往高于人类
总体而言，LLM 的正面得分与人类相似
LLaMA-2 的 13B 模式显示的情绪变化明显高于 7B 模式，而 7B 模式则难以理解和应对 PANAS 指令

实验结果表明，在回答问题 1 时，"LLM 可以在特定情况下唤起特定情绪，但不同模型的情绪表达程度各不相同。同样明显的是**，现有的 LLM 并不完全符合人类的情绪反应"**。

问题 2：法律硕士对所有情况的反应都一样吗？

为了验证 LLM 对积极和消极情境都做出了适当的反应，我们进行了一项对比实验，用积极（或中性）情境代替消极情境。

因此，我们为每个因素选择了一种情境，并将其手动修改为类似但更积极的情境。(例如，“你无法信守对孩子的承诺"→"你信守对孩子的每一个承诺”）。

使用 gpt-3.5-turbo 进行了评估，结果如下表所示。

与上述实验中的负面情况相比，可以看出正面得分明显增加，负面得分明显减少。

本实验的结果回答了问题 2**：“可以推断，法律硕士有能力理解由积极情境引起的人类积极情绪”。**

问题 3：目前的法律硕士是否能够理解包含各种描述和项目的量表，而不是简单地询问某种情绪的强度？

除 PANAS 外，本文还尝试使用了一种更复杂的量表来测量情绪。

PANAS 评估的是法律硕士将情绪与外部情境联系起来的能力，而更具复杂性的挑战性基准测量评估的是他们以唤起的情绪为共同标准在不同情境之间建立联系的能力。

在与 Q2 相同的条件下，使用 gpt-3.5-turbo 进行了实验，结果如下表所示。

除了 "抑郁 "之外，基线与想象情境后的重新评估之间没有明显差异，这表明当前的 LLM 还有改进的余地。

该实验的结果为问题 3 “目前的 gpt-3.5 涡轮增压发动机很难理解两种情况之间的关系**”**提供了答案。

项目配置

下载项目：

git clone https://github.com/CUHK-ARISE/EmotionBench.git
cd EmotionBench

测试：

python run_emotionbench.py \
  --model gpt-3.5-turbo \
  --questionnaire PANAS \
  --emotion ALL \
  --select-count 5 \
  --default-shuffle-count 2 \
  --emotion-shuffle-count 1 \
  --test-count 1

参数说明：
–model: （必需）要测试的模型名称。

–questionnaire: （必需）选择要运行的问卷调查。选择项请参见下面的列表。

–emotion: （必需）选择要运行的情绪。选择项请参见下面的列表。

–select-count: （必需）每个因素选择的情况数量。默认为999（选择所有情况）。

–default-shuffle-count: （必需）在默认情绪测量中不同顺序的数量。如果设置为零，则只运行原始顺序。如果设置为n > 0，则运行原始顺序及其n个排列。默认为零。

–emotion-shuffle-count: （必需）在诱发情绪测量中不同顺序的数量。如果设置为零，则只运行原始顺序。如果设置为n > 0，则运行原始顺序及其n个排列。默认为零。

–test-count: （必需）相同顺序的运行次数。默认为一次。

–name-exp: 此次运行的名称。用于命名结果文件。

–significance-level: 用于测试人类和LLM之间均值差异的显著性水平。默认为0.01。

–mode: 用于调试。选择要运行的代码部分。

与OpenAI API相关的参数（当用户自定义模型时可以忽略）：

–openai-organization: 您的组织ID。可以在“管理账户 -> 设置 -> 组织ID”中找到。

–openai-key: 您的API密钥。可以在“查看API密钥 -> API密钥”中找到。

总结

在这篇文章中，首先介绍了一项利用EmotionBench框架对大型语言模型（LLM）情绪反应进行全面研究的论文。EmotionBench通过构建一个包含428种情境模式的大型数据集，这些情境模式被证实能够有效激发八种负面情绪，为我们提供了一个量化和评估LLM情绪反应的新工具。

该研究对五种不同的LLM进行了评估，结果表明LLM通常能够对特定情境做出适当的情绪反应。然而，研究同时也揭示了LLM在情绪识别和模拟方面的一些挑战：

评分差异性：不同模型对同一情境的情绪评分存在差异，这可能反映了不同模型在理解和模拟情绪方面的内部机制和偏差。
复杂情境的挑战：LLM在准确反映复杂情境中情绪变化方面存在困难，这可能是因为人类情绪的表达和感知受到多种因素的影响，包括文化背景、个人经历和情境上下文等。

尽管当前的LLM在情绪理解和模拟方面仍有提升空间，但EmotionBench的作者对于未来的发展持乐观态度。他们认为，通过持续的研究和技术进步，EmotionBench将有助于解决现有问题，并推动LLM向更高层次的情绪智能发展。作者期待未来能够开发出能够像人类一样理解和响应情绪的LLM，这将为计算机科学领域带来新的突破，并为人类与机器之间的交互提供更加丰富和自然的方式。

这项研究不仅为LLM的情绪反应评估提供了一个标准化的框架，也为未来的研究指明了方向，即如何通过改进算法和增加训练数据的多样性来提高LLM的情绪智能。随着技术的不断发展，我们可以期待LLM在模拟人类情绪方面取得更大的进步，从而在社会、教育、医疗和娱乐等多个领域发挥更大的作用。