GPT-4o的高阶心智理论能力(ToM)已经正式超越人类! !!

就在不久前,谷歌DeepMind、约翰斯·霍普金斯大学和牛津大学等机构的研究人员发布了一项研究,证实了GPT-4在心智理论任务上的表现已经达到了成年人类的水平。

如何免费使用GPT-4o?如何升级GPT4.0 Turbo?(内附详细步骤教程)

论文地址:https://arxiv.org/pdf/2405.18870


更值得注意的是,它在第6阶推理上的表现,显著超越了人类!

不仅如此,之前《自然·人类行为》子刊中的一项研究也表明,GPT-4在心智理论方面的表现已经超过了人类水平。


GPT-4被证实拥有“人类心智」”?!icon-default.png?t=N7T8https://www.zhihu.com/pin/1778112077896822784

总的来说,这两项研究无疑表明,目前最先进的大语言模型已经发展出广泛的心智理论能力,而GPT-4则是其中的佼佼者。

那么,距离大语言模型们用心智和策略将我们人类玩弄于股掌之间的那一天,还有多远?



没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:

升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

这次的研究讨论了LLM在多大程度上能够发展出高阶心智理论(higher-order ToM)。

所谓高阶心智理论,是指人类通过递归方式推理他人多种心理和情感状态的能力。



例如,“我认为你相信她知道”这句话中,包含了非常复杂的多层推理,属于三阶陈述。这与大多数过去集中在二阶ToM上的相关研究有所不同。

为了衡量LLM对如此复杂问题的掌握能力,团队设计了一套手写测试套件,命名为“多阶心智理论问答测试”。



这场能力测评的参与者包括5个LLM模型以及一大群成年人。 每个陈述都经过严格检查,确保没有不清晰或模棱两可的措辞、语法错误、缺失的心理状态或命题条款。

陈述中只包含与社交事实相关的事实陈述(即与故事中个体相关的事实),而不包括工具性事实(例如“天空是蓝色的”)。

对于事实陈述,仅需要进行记忆;而对于心智理论陈述,则需要记忆加推理。

研究结果表明,在ToM任务上表现最好的模型是GPT-4和Flan-PaLM。



人类的表现与GPT-4相差无几,但显著优于Flan-PaLM。值得注意的是,LaMDA在每个陈述上都回答“真”,最终正确率为50%。

具体来看,第2、3、4和6阶的ToM陈述上,Flan-PaLM、GPT-4和人类的表现差异不大。

然而,在第5阶上,人类的表现显著优于这两个模型。GPT-4在第3阶的正确回答比例显著高于第4阶,在第4、5阶之间表现没有显著差异,但在第6阶的正确回答比例显著高于第4阶。

Flan-PaLM在第3阶的正确回答比例高于第4阶,而在第4、5阶之间,或第4、6阶之间表现没有显著差异。

人类在第3、4阶,以及第4、6阶之间的表现没有显著差别,但从第4阶到第5阶的表现有明显提升。
#GPT-5 #GPT #OpenAI #OpenAI GPT #OpenAI GPT

推荐阅读:

如何免费使用GPT-4o?如何升级GPT4.0 Turbo?(内附详细步骤教程)


如何免费使用GPT-4o?如何升级GPT...

GPT-4o Omni金牌团队首次揭秘!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值