文章介绍了MuMA-ToM,这是首个针对多模态多人理论心智(ToM)进行评估的基准测试框架,它用于评估AI系统在真实家庭环境中通过视频和文本描述来理解和推理人与人之间互动的能力,特别是关于人们的心理状态、目标及相互之间的信念推断。为此,作者还提出了一种名为LIMP(基于语言模型的逆向多人规划)的新模型,实验结果显示LIMP的表现明显优于目前最先进的方法,包括一些大型的多模态模型。文章通过对人类实验的验证提供了人类基线数据,并展示了LIMP在多模态ToM任务上的优越性。
1 人类社会交互的本质
人类生活在充满社交互动的世界中,不仅亲身参与社交活动,还能理解他人的社交行为。心理学研究表明,理解不同类型社交互动的能力很早就开始发展,并成为日后更复杂社交技能的基础之一。关键在于,理解社交互动不仅仅是识别行为本身,还需要推断人们为何以某种方式互动,这涉及到推断个人的心理状态以及他们如何推测彼此的心理状态,即所谓的多人理论心智(ToM)推理。例如,如果Alice把一本书放在Bob的桌子上,她可能是想帮忙整理或是隐藏这本书,这取决于她的社交目的(帮助还是妨碍)以及她认为Bob希望书的位置在哪里。这种多模态、多人的心智理论能力对于人类以及部署在人类生活环境中的AI系统(如辅助机器人)都是至关重要的;缺乏对复杂社交互动中人们心理状态的稳健理解,可能会导致AI系统在与人互动时出现严重的错误。
2 LIMP心智模型
LIMP(Language model-based Inverse Multiagent Planning)是一种创新性的多模态多人理论心智(ToM)模型,它结合了语言模型的优势与逆向多智能体规划的技术,通过两层推理机制直接从原始多模态输入中学习通用表示,无需手工定义符号。LIMP展现了超越现有技术的能力,包括大型多模态模型GPT-4o和Gemini-1.5 Pro,以及最新的多模态ToM模型BIP-ALM,能够在多模态环境下更好地理解和推断多个智能体之间的互动和心理状态。
多模态多人心智理论测试
MuMA-ToM中的数据集包含视频和文本描述,记录了人在实际家庭环境中的多模态行为。这些记录不仅限于RGB视频,还包括深度图像、实例分割、动作状态和摄像机数据等,使得研究者可以全面了解实验情景。
-
问题类型:MuMA-ToM设计了多种类型的问题,主要分为三大类:信念推理、社会目标推理以及对他人目标信念的推理。这些问题旨在测试机器学习模型对复杂社会互动情境下人们目标、信念和社会意图的理解能力。
-
生成过程:MuMA-ToM采用程序化生成的方式创建互动场景。首先定义了四种不同的公寓作为基本环境,然后在公寓内随机放置物体来构建独特的环境。接下来,根据两个智能体的初始位置、物理目标、初始信念和社会意图(帮助、阻碍或独立行动),生成动作序列。如果场景不需要语言交流,则确保两个智能体的目标是将同一个物体放到不同的位置,从而促使它们相互作用。
-
多模态输入:MuMA-ToM是首个同时具备多模态输入(文本和视频)的多人心智理论数据集。它不仅考察了单个智能体的行为,还考虑了智能体之间的互动,包括它们的社会目标以及对其他智能体目标的信念。
-
模型评估:为了评估模型性能,MuMA-ToM引入了一个名为LIMP的新模型,该模型基于语言模型的逆向多人规划,旨在解决ToM问题。实验表明,LIMP在MuMA-ToM上的表现优于现有的先进技术。
-
补充信息:除了视频和文本外,MuMA-ToM还提供了深度图像、实例分割、地面实况动作和相机数据,尽管LIMP模型并未利用这些额外信息来做推断,但这些数据可用于测试模型在解决ToM问题时利用额外信息的能力。
3 结语
文章介绍了MuMA-ToM,一个多模态多人理论心智(ToM)基准测试,用于评估AI系统在现实家庭环境中通过视频和文本描述来推理人的目标和信念的能力,并提出了一种新的模型LIMP,在此任务上超越了现有技术。
论文题目: MuMA-ToM: Multi-modal Multi-Agent Theory of Mind
论文链接: https://www.arxiv.org/abs/2408.12574
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。