GPT-4o的高阶心智理论能力（ToM）已经正式超越人类！！！

最新推荐文章于 2024-10-04 22:36:54 发布

TechQuester

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量421

点赞数 4

文章标签：人工智能 chatgpt python gpt 深度学习

本文链接：https://blog.csdn.net/ElevenSakura/article/details/139374622

版权

就在不久前，谷歌DeepMind、约翰斯·霍普金斯大学和牛津大学等机构的研究人员发布了一项研究，证实了GPT-4在心智理论任务上的表现已经达到了成年人类的水平。

如何免费使用GPT-4o？如何升级GPT4.0 Turbo？（内附详细步骤教程）

论文地址：https://arxiv.org/pdf/2405.18870

更值得注意的是，它在第6阶推理上的表现，显著超越了人类！

不仅如此，之前《自然·人类行为》子刊中的一项研究也表明，GPT-4在心智理论方面的表现已经超过了人类水平。

GPT-4被证实拥有“人类心智」”？！https://www.zhihu.com/pin/1778112077896822784

总的来说，这两项研究无疑表明，目前最先进的大语言模型已经发展出广泛的心智理论能力，而GPT-4则是其中的佼佼者。

那么，距离大语言模型们用心智和策略将我们人类玩弄于股掌之间的那一天，还有多远？

没体验过OpenAI最新版GPT-4o？快戳最详细升级教程，几分钟搞定：

升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

这次的研究讨论了LLM在多大程度上能够发展出高阶心智理论（higher-order ToM）。

所谓高阶心智理论，是指人类通过递归方式推理他人多种心理和情感状态的能力。

例如，“我认为你相信她知道”这句话中，包含了非常复杂的多层推理，属于三阶陈述。这与大多数过去集中在二阶ToM上的相关研究有所不同。

为了衡量LLM对如此复杂问题的掌握能力，团队设计了一套手写测试套件，命名为“多阶心智理论问答测试”。

这场能力测评的参与者包括5个LLM模型以及一大群成年人。每个陈述都经过严格检查，确保没有不清晰或模棱两可的措辞、语法错误、缺失的心理状态或命题条款。

陈述中只包含与社交事实相关的事实陈述（即与故事中个体相关的事实），而不包括工具性事实（例如“天空是蓝色的”）。

对于事实陈述，仅需要进行记忆；而对于心智理论陈述，则需要记忆加推理。

研究结果表明，在ToM任务上表现最好的模型是GPT-4和Flan-PaLM。

人类的表现与GPT-4相差无几，但显著优于Flan-PaLM。值得注意的是，LaMDA在每个陈述上都回答“真”，最终正确率为50%。

具体来看，第2、3、4和6阶的ToM陈述上，Flan-PaLM、GPT-4和人类的表现差异不大。

然而，在第5阶上，人类的表现显著优于这两个模型。GPT-4在第3阶的正确回答比例显著高于第4阶，在第4、5阶之间表现没有显著差异，但在第6阶的正确回答比例显著高于第4阶。

Flan-PaLM在第3阶的正确回答比例高于第4阶，而在第4、5阶之间，或第4、6阶之间表现没有显著差异。

人类在第3、4阶，以及第4、6阶之间的表现没有显著差别，但从第4阶到第5阶的表现有明显提升。
#GPT-5 #GPT #OpenAI #OpenAI GPT #OpenAI GPT