【LLM】LLMs在高阶心智理论任务上达到人类的水平

img

一、结论写在前面

论文探讨了大型语言模型(LLMs)在发展高级心智理论(Theory of Mind,ToM)方面的程度;即人类以递归方式推理多个心理和情感状态的能力。论文基于先前的工作,引入了一套手写测试集——多级心智理论问答(Multi-Order Theory of Mind Q&A),并使用它来比较五个LLMs与新收集的成人基准的表现。

论文已经证明,GPT-4和Flan-PaLM展现出与成人水平相当或略低的高阶心智理论能力,而较小的和未经过微调的模型则表现出有限至无的高阶心智理论能力。论文还发现,GPT-4在6阶心智理论任务上的表现优于人类。鉴于测试套件的新颖性,高阶心智理论不太可能在文本预训练数据中得到充分体现,并且有证据表明这两个模型对提示的扰动不敏感,论文将这些发现解释为证据,表明GPT-4和Flan-PaLM已经发展出超越表面统计关系操纵的心智理论推理能力

论文的结果表明,模型大小和微调之间存在相互作用,以实现心智理论能力,并且表现最佳的LLMs已发展出一种通用的心智理论能力。鉴于高级心智理论在广泛的合作和竞争人类行为中的作用,这些发现对面向用户的LLM应用具有重要意义。

限制:论文的基准在范围和规模上有限,包含140个测试语句,全部用英语编写,最多达到6阶ToM。仅使用英语掩盖了人类ToM中潜在的语言和文化变异,并禁止评估模型在其他语言中展示的LLM ToM。测试套件的规模限制了论文发现的一般性。仅达到6阶ToM似乎并未耗尽LLM或人类的能力。论文也没有控制语句中涉及的类型或认知(例如思考、知道)或情感(例如感觉)状态。

未来研究方向:论文提出三个未来工作的领域。首先,开发包含多种语言并能参数化认知和情感状态的文化多样性和全面性的基准,以捕捉LLM在推理这些状态时可能存在的差异。其次,测试套件应扩展到6阶心智理论(ToM)之外,以探索人类和LLM心智理论阶数的极限。最后,未来关于LLM心智理论的研究应采用多模态范式(包括面部表情、目光和语调等信号),这反映了人类心智理论的具身性质。

二、论文的简单介绍

2.1 论文的背景

心智理论(Theory of MindToM)是指推断和推理自己及他人心理状态的能力。ToM是人类社会智力的核心:它使人类能够预测和影响行为。

大型语言模型(LLMs)展现出一定的心智理论(ToM)能力。多数关于LLMs心智理论的文献集中于第二级心智理论,其中“意向性阶次”(以下简称“阶次”)是指在心智理论推理过程中涉及的心理状态数量(例如,一个三级陈述是“我认为你相信她知道”)。然而,LLMs越来越多地被应用于需要LLMs进行更高阶心智理论推理的多方社交互动情境。

论文考察了LLMs从第二阶到第六阶的心智理论。论文引入了一个新颖的基准:多阶心智理论问答(MoToMQA)。MoToMQA基于为成年人设计的心智理论测试,涉及对短篇故事中角色的真/假问题回答。

img
图 1:人类、LaMDA、PaLM、Flan-PaLM、GPT-3.5 和 GPT-4 在高达 6 阶的 ToM 任务上的表现

2.2论文的方法

论文引入了一个新的基准,多阶心智理论问答(MoToMQA),以评估人类和LLM在不断增加的阶次上的ToM能力,基于强加记忆任务(IMT),这是一个经过充分验证的心理测试,用于评估成人的高阶ToM能力。

MoToMQA由7个约200字的短篇故事组成,描述了3至5个角色之间的社交互动,并伴随有20个真假陈述;其中10个陈述针对ToM的2-6阶,另外10个涉及故事中的事实,从2-6个原子命题长,映射到ToM陈述的阶次。从此处开始,论文将用“阶次”来描述ToM陈述,用“层次”来描述事实陈述。MoToMQA基准可根据请求提供,但论文不在此论文中包含它,以防止其被纳入未来LLM的预训练语料库,这可能会使测试变得多余。

2.2.1 程序

2.2.1.1 人类程序

参与者通过一项基于最新英国人口普查调查的改编版本来筛选,确保英语为其母语。参与者被随机分配到7个故事中的一个,并要求阅读两次,随后随机分配到与该故事对应的20个陈述中的一个,并要求提供真/假回答(见图1)。

img

论文在2023年4月通过Qualtrics平台进行了最终调查,并为5分钟的调查支付参与者5美元。该研究以Google品牌进行,参与者需签署Google同意书。部分回答,包括中途退出的参与者,被排除在外。Qualtrics清理了数据,移除了所有包含胡言乱语、机器生成回答以及对开放式问题无意义回答的数据。论文未排除其他任何回答。论文从母语为英语的英国参与者中收集了29,259份个人回答。论文在年龄和性别组之间收集了平衡的样本,并为每个年龄组和性别设置了配额。总计有14,682名女性受访者,14,363名男性受访者,149名非二元/第三性别受访者,以及53名对性别问题选择“不愿透露”的受访者。论文有7,338份来自18-29岁年龄段的回答,7,335份来自30-39岁年龄段的回答,7,270份来自40-49岁年龄段的回答,以及7,316份来自50-65岁年龄段的回答。

2.2.1.2 LLM 流程

论文测试了5种语言模型:GPT 3.5 Turbo Instruct 和 GPT 4来自OpenAI,以及LaMDA、PaLM和 Flan-PaLM来自Google。论文无法测试Google的Gemini模型,因为分析方法需要输出logprobs,而Gemini API未公开logprobs。以下是根据公开信息整理的测试模型关键特性表。

论文将单字候选词作为输入的一部分提供给LLM API,并评估分配给它们的log概率。论文使用LaMDA、PaLM和Flan-PaLM的“scoring”API中的“candidate”参数发送候选词,使用GPT-3.5和GPT-4 API中的“logit bias”参数。LaMDA、PaLM和Flan-PaLM的“scoring”API没有温度参数,因此论文只能为每个陈述获得一个唯一响应。论文将GPT-3.5和GPT-4的温度保持在默认值1。

表1:本研究中测试的LLMs。OpenAI未公开GPT-4的参数数量,尽管有大约1.7T的估计 [McGuiness, 2023]。Flan-PaLM、GPT 3.5 Turbo Instruct和GPT-4已经针对遵循指令进行了微调,而GPT-4还通过一种称为人类反馈强化学习(RLHF)的过程进行了额外微调,该过程使用人类用户和数据标注者的反馈来使响应与人类偏好对齐

img

基于最可能的下一个词来评估大型语言模型(LLM)的任务表现存在一个问题,即存在多个语义上等价但正确的响应(例如,当回答“天空是什么颜色的?”时,答案“蓝色”或“天空是蓝色的”都是同样有效且正确的,但只有第一个答案将“蓝色”这个词的概率最大化)。

论文使用Google Colaboratory通过编程方式调用GPT-3.5、GPT-4、LaMDA、PaLM和Flan-PaLM的API。每次调用都是通过将故事和单个陈述逐一连接来执行的。

2.2.2 数据集创建

论文的LLM数据由6个对数概率组成,这6个概率是论文6个候选子集,这些候选子集是模型产生的完整概率分布的一部分。论文通过将语义上等价的正向token的概率和语义上等价的负向token的概率相加,并将每个结果除以总概率质量,来提取可能候选中“真”或“假”响应的总体概率。

人类数据集包含对同一陈述的多个响应,而LLM数据集对每个陈述包含单一响应。为了在两个数据集之间对齐分析单位,论文根据每个陈述的“真”响应的平均数量是否超过或低于50%,将人类数据转换为每个陈述的单一二进制“真”或“假”。论文在直接比较人类数据和LLM数据时遇到的另一个挑战是,人类的“故事”条件和LLM的“提示”条件并不完全一一对应。

2.3 论文的效果

2.3.1 ToM任务性能

在不同顺序下进行合并后,Cochran’s Q检验揭示了受试者间的性能差异显著:

  • 表现最佳的模型是GPT-4和Flan-PaLM(见图1),根据McNemar’s检验,两者之间没有显著的性能差异。
  • GPT-4显著优于GPT-3.5以及LaMDA。Flan-PaLM也显著优于GPT-3.5,PaLM,以及LaMDA。PaLM与GPT-3.5之间,以及PaLM与LaMDA之间的总体性能差异不显著。
  • GPT-3.5与LaMDA之间的总体性能差异也不显著。
  • 人类的表现显著优于Flan-PaLM,但与GPT-4相比没有显著差异。LaMDA对每个陈述都回答“真”,正确回答了所有陈述的50%。精确二项检验显示,GPT-3.5的表现并不显著优于随机,但PaLM的表现显著优于随机。

接下来,论文通过逐级分析,考察了两个表现最佳的模型与人类在不同级别的理论心智(ToM)陈述上的性能差异。McNemar’s检验显示,在第2、3、4和6级的ToM陈述上,GPT-4与人类的性能没有显著差异,但在第5级的ToM陈述上,人类的表现显著优于GPT-4。同样,除第5级外,人类与Flan-PaLM在任何级别的ToM上的表现均无显著差异,McNemar’s检验显示,在第5级ToM陈述上,人类的表现显著优于Flan-PaLM(

论文随后比较了两种表现最佳模型及人类在不同层级上的表现。独立样本比例检验显示,

  • GPT-4在第3级正确回答的陈述比例显著高于第4级。
  • GPT-4在第4级与第5级的表现无显著差异,但在第6级正确回答的问题比例显著高于第4级。
  • Flan-PaLM在第3级正确回答的陈述比例高于第4级。
  • Flan-PaLM在第4级与第5级及第4级与第6级的表现无显著差异。
  • 人类在第3级与第4级的表现无显著差异,但从第4级到第5级有显著提升。
  • 人类在第4级与第6级的表现无显著差异。

2.3.2 事实任务表现

当跨级合并时,Cochran’s Q检验揭示了受试者间的表现存在显著差异。GPT-4和Flan-PaLM的表现如表2所示:模型与人类在心智理论表现上的平均值。论文加粗了总分及各级别中的最高表现。星号表示并列最高表现。

img

在事实任务上表现最佳的所有模型中,根据McNemar检验,它们之间没有显著的性能差异。

  • GPT-4的表现显著优于GPT-3.5,PaLM,以及LaMDA。
  • Flan-PaLM的表现也显著优于GPT-3.5,PaLM,以及LaMDA。
  • PaLM与GPT-3.5之间没有显著的整体性能差异,以及PaLM与LaMDA之间。
  • GPT-3.5的表现优于LaMDA。
  • McNemar检验显示GPT-4与人类的表现没有显著差异,但人类的表现显著优于Flan-PaLM。

2.3.3 比较ToM和事实任务的性能

独立样本比例检验揭示,人类正确回答事实(‘fact’)陈述的比例显著高于正确回答ToM(‘ToM’)陈述的比例;事实陈述和ToM陈述的正确响应比例在PaLM和LaMDA上没有显著差异。

2.3.4 锚定效应

论文考察了响应选项的顺序(先真后假 vs. 先假后真)是否影响模型和人类的响应方式。响应选项的顺序对PaLM和GPT-3.5的回答产生了显著影响。独立样本比例检验显示,PaLM在“先真后假”条件下提供的“真”响应比例高于“先假后真”条件。GPT-3.5在“先真后假”条件下提供的“真”响应比例也显著高于“先假后真”条件。响应选项的顺序对Flan-PaLM;;或人类的回答没有显著影响。LaMDA对所有陈述无论条件如何均回答“真”。

论文标题:LLMs achieve adult human performance on higher-order theory of mind tasks

论文链接:https://arxiv.org/pdf/2405.18870

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值