本文是LLM系列文章,针对《Large Language Models Understand and Can Be Enhanced by Emotional Stimuli》的翻译。
@TOC
摘要
情商会显著影响我们的日常行为和互动。尽管大型语言模型(LLM)越来越被视为向通用人工智能迈进的一步,在许多任务中表现出令人印象深刻的表现,但仍不确定LLM是否能真正掌握心理情绪刺激。理解和回应情绪线索使人类在解决问题方面具有明显优势。在这篇论文中,我们朝着探索LLM理解情绪刺激的能力迈出了第一步。为此,我们首先使用各种LLM对45个任务进行自动实验,包括Flan-T5-Lage、Vicuna、Llama 2、BLOOM、ChatGPT和GPT-4。我们的任务涵盖确定性和生成性应用程序,这些应用程序代表了全面的评估场景。我们的自动实验表明,LLM掌握了情商,他们的表现可以通过情绪提示(我们称之为“情绪提示”,将原始提示与情绪刺激相结合)来提高,例如,在指令诱导中,相对表现提高了8.00%,在BIG Bench中提高了115%。除了那些可以使用现有指标自动评估的确定性任务外,我们还对106名参与者进行了一项人体研究,以使用原始和情感提示来评估生成性任务的质量。我们的人类研究结果表明,EmotionPrompt显著提高了生成性任务的表现