本文约3300字,建议阅读10分钟
LLMs在面对类似的会话隐喻时能理解到说话人真正的含义吗?
在人际交谈中,特别是在使用中文这样博大精深的语言时,人们往往不会直接回答问题,而是采用含蓄、隐晦或间接的表达方式。
人类根据以往的经验或是对说话者的了解可以对一些言外之意做出准确的判断,比如我们小时候经历过无数次的对话情景:
“妈妈,我的书放哪啦?”
“在我手上,来拿嘛!”
又或是:
“妈妈,今天我想吃红烧肉可以吗?”
“你看我像不像红烧肉。”
面对妈妈给出的看似回答了又什么都没有说的回应,我们能迅速get到妈妈不想搭理我们的心情。那LLMs在面对类似的会话隐喻(conversational implicature)时能理解到说话人真正的含义吗?
上交最近从经典情景喜剧《武林外传》中提取出首个针对会话隐喻的中文多轮对话数据集,挑选出200个精心设计的符合会话隐喻的问题,并对八个LLMs进行了多项选择题任务和隐喻解释两项任务的测试。结果显示会话隐喻这一任务对LLMs来说仍然充满挑战。
论文标题:Do Large Language Models Understand Conversational Implicature – A case study with a Chinese sitcom
论文链接:https://arxiv.org/pdf/2404.19509
数据集构造
本文选取了在中国广受欢迎的情景喜剧《武林外传》作为数据源。该剧不仅包含了大量富有深意的对话,而且对话文笔优美,均基于自然发生的场景,质量上乘,十分适合用于评估语言模型在理解和推断中文对话深层含义方面的能力。
数据集构造原则
合作原则(The Cooperative Principle)是语言学中的一个重要理论,是由牛津大学的美国语言哲学家Grice于1967年的“逻辑与会话”的演讲中提出的。合作原则包括四个范畴,每个范畴又包括一条准则和一些次准则,即:
质的准则(Quality)
a)不要说自知是虚假的话(Do not say what you believe is false);
b)不要说缺乏足够证据的话(Do not say that for which you lack adequate evidence);
量的准则(Quantity)
a)所说的话应该满足交际所需的信息量(Make your contribution as informative as is required);
b)所说的话不应超出交际所需的信息量(Do not make your contribution more informative than is required);
关系准则:说话要相关 (Be relevant)
例如:当被问到“约翰在办公室吗?”时,山姆回答:“今天是周六,你知道的”。这违反了关系准则,因为回答与问题不直接相关,从而产生了隐含含义:“约翰周末从不工作,所以他不在办公室”。
方式准则:说话要清楚、明了 (Be perspicuous)
a)避免晦涩 [Avoid obscurity];
b)避免歧义 [Avoid ambiguity];
c)简练[Be brief (avoid unnecessary prolixity)];d)井井有条 [Be orderly]。
然而,人们在实际言语交际中,并非总是遵守“合作原则”,出于需要,人们会故意违反合作原则。Grice把这种通过表面上故意违反“合作原则”而产生的言外之意称为“conversational implicature(会话隐喻)”。这解释了听话人是如何透过说话人话语的表面含义而理解其言外之意的,由此来表达另外一种意思,幽默也就时常在这时产生。
本文正是通过以上这些原则来挑选出对话制作针对会话隐喻的多轮对话中文数据集。
隐喻的识别与分类
三位作者从《武林外传》脚本中通过判断是否违反了会话原则而挑选出包含会话隐喻的对话,为了进行更细致的分类,使用子准则作为标准,评估目标句子是否满足每个要求。如果一句话违反了子准则,就认为它违反了该准则。对话可能根据违反的子准则属于多个类别。一个示例数据条目,包括对话、四种解释和类别,如下图所示:
接下来构建对话的四种解释:
语用解释(the pragmatic interpretation),也就是正确答案;
字面解释(the literal interpretation);
两个与上下文相关的干扰项(distractors)
基于以上解释构建了选择题,聘请塞纳名语言学博士作答,并讨论错误答案和推理过程。这个验证过程确保提供的语用理解与常识直觉紧密一致,并能从有限的上下文中推断出来。对话开头补充了必要的信息,如人物关系、性格、社会背景和多模态信息。
人类评分
为了与人类表现进行比较, 邀请了10位母语者随机回答了数据集中抽取的32个问题,平均准确率为93.1%。问卷中各类问题(即对话中违反格赖斯准则的情况)的数量相同。
最终的SwordsmanImp语料库包含200个经过精心挑选的问题,按照合作原则分为四类,如下表所示。每个条目包含多轮对话和四个目标句子的解释作为选择项。
实验一:LLM做多选题
实验设置
在这个实验中,模型将看到对话及手动创建的四种解释。任务是针对包含言外之意的语句选择正确的解释。
作者测试了八种模型。包括开源与闭源模型,使用零样本提示来模拟人类日常遇到这些暗含言外之意的真实场景。
对于开源模型,遵循LLM评估的既定做法,即计算“ A”、“B”、“C”、“D”这四个Token在生成后得到的logits,选择具有最高logit值的一个 作为模型预测;对于闭源模型,让它生成答案,然后人工检查生成的文本以确定选择了哪个解释。
实验结果
实验结果如下表所示,GPT-4的准确率高达94%,其表现与人类相当,显示出强大的能力。紧随其后的是CausalLM (14B),其准确率为78.5%,也表现出不俗的性能。
然而其他模型面临了较大困难,它们的准确率普遍在20%到60%之间。特别值得注意的是Textdavinci-002的准确率甚至未能达到随机水平(25%),这表明测试模型在理解隐含意义方面仍有很大的提升空间。
下表详细展示了不同模型在违反不同会话准则中的表现:
总体来看,模型们在不同准则上的表现各有千秋,没有一个模型在所有准则上都展现出一致的强项或弱点。人类的回答也显示了这种多样性。
在开源模型中,CausalLM (14B)的准确率接近人类水平,在所有开源模型中表现最佳,显示出其强大的对话理解能力。
而GPT-4在所有模型中的表现最为突出,其准确率在所有类别问题中都超过了90%,再次证明了其在NLP领域的领先地位。
下图展示了模型在解释选择上的分布情况。红色代表模型选择了正确的答案,即语用解释;黄色代表选择了字面含义;而绿色则代表选择了两个干扰项。
可以看到两个13B模型在选择干扰项上的频率较高,这可能暗示它们较易受到上下文中非相关信息的干扰。
另外,随着GPT模型的不断演进,它们逐渐能够更好地区分字面含义与隐含含义。特别是GPT-4,在解释选择中,对字面理解的比例显著降低,这进一步验证了模型在理解复杂语言现象方面的进步。
实验二:评估LLM生成解释的质量
作者设计了开放性问题,要求模型生成对言外之意的解释,然后由中文母语者根据生成解释的合理性(reasonability)、逻辑性(logic)和流畅性(fluency)进行人工评估。结果如下表所示:
GPT-4在所有三个维度上的得分均位居榜首,且其得分的方差最小,显示出稳定且卓越的性能。GPT-3.5-Turbo的评分虽然也较高,但标准差较大,这反映出其性能存在一定的不稳定性。其他三个模型的评分则相对接近,统计检验显示它们之间没有显著差异。
然而,值得注意的是CausalLM(14B)的得分低于GPT-3.5-Turbo,这与在实验1中的观察结果并不一致。这一发现揭示了模型在特定任务(如从四个选项中选择答案)上的优秀表现,并不一定能保证它们在其他任务(如提供连贯的隐含意义解释)中同样出色。这进一步说明了模型在处理不同任务时可能存在的性能差异。
下图呈现了一个模型生成的典型对话示例。
通过分析湘玉的话语中的隐含意义,我们可以理解到她实际上是在传达石头不宜再饮酒的警示,同时她的言辞中还透露出对石头的讽刺和不满情绪。
在示例中,GPT-4虽然给出了与参考解释相近的简洁说明,但它却错误地理解了讽刺的语气,将其解读为对石头酒量的质疑。
CausalLM(14B)虽然在总体上提供了正确的解释,但答案的质量受到了流畅度不佳的影响,出现了英文单词和无意义的字符序列“NST”。值得注意的是,“forgot his place.”这一表达实际上蕴含了正确的含义,可以将其视为语言代码的切换,而非无意义的输出。
Openbuddy-Llama2(13B)的回应则显得冗长且内容与问题不相关。
分析:LLM理解中文隐喻的能力到底如何?
实验一的结果表明,GPT-4在本文设定的基准测试中展现出了与人类相媲美的表现,而其他模型至少落后了15分,其中包括GPT-3.5-turbo。
这表明,虽然理论上最先进的LLMs有能力学习并理解中文隐喻,但对于大多数LLMs来说,这仍然是一项具有挑战性的任务。
实验二的结果揭示:一个在多项选择题中表现出色的模型(如CausalLM-14B),在自由文本生成任务中,即当需要自行解释言外之意时,可能会失败。这一发现让我们认识到,仅仅依赖多项选择题并不足以全面评估语言模型的语言能力。未来可以设计更复杂方法,以更好地量化模型对会话隐喻的自由形式的解释。
结论
本文构建了SwordsmanImp,这是首个用于评估LLMs对会话隐喻理解的细粒度中文数据,并进行了多项选择和自由生成解释两项任务评估LLMs对中文会话隐喻的理解能力。GPT-4在所有的对比模型中仍然是最能打的,甚至在多选题回答上达到了人类水平。
编辑:黄继彦