世界模型的概念因多模态大型语言模型(如GPT-4)和视频生成模型(如Sora)的进展而受到了广泛关注,这些技术在追求通用人工智能的过程中具有核心地位。
本综述提供了关于世界模型文献的全面回顾。一般来说,世界模型被视为理解当前世界状态或预测其未来动态的工具。本综述系统地分类了世界模型,重点讨论了两个主要功能:(1)构建内部表征以理解世界的机制;(2)预测未来状态以模拟和指导决策。首先,我们回顾了这两个类别的当前进展。接着,我们探讨了世界模型在关键领域中的应用,包括自动驾驶、机器人技术和社会模拟,重点分析每个领域如何利用这些功能。最后,我们概述了关键挑战,并提供了未来研究方向的见解。
1 引言
科学界长期以来一直致力于开发一个统一的模型,以复制世界的基本动态,从而实现通用人工智能(AGI)[98]。2024年,多模态大型语言模型(LLMs)和Sora [130] 的出现,加剧了关于世界模型的讨论。尽管这些模型展示了捕捉世界知识方面的新能力——例如Sora生成的视频,似乎完美遵循物理定律——但关于它们是否真正符合全面世界模型的标准,仍然存在疑问。因此,对世界模型研究中近期进展、应用和未来方向的系统回顾,既是及时的,也是必要的,尤其是在人工智能时代迎来新的突破时。
世界模型的定义仍然是一个持续争论的话题,通常可以分为两个主要视角:理解世界和预测未来。如图1所示,Ha和Schmidhuber [59] 的早期工作专注于抽象化外部世界,以深入理解其内在机制。与此相对,LeCun [98] 认为,世界模型不仅应当感知和建模现实世界,还应具备展望可能未来状态的能力,从而为决策提供指导。像Sora这样的生成视频模型代表了一种更加侧重于模拟未来世界演变的方式,因此,它们与世界模型的预测性方面更为契合。这引发了一个问题:世界模型应优先理解当前世界,还是预测未来状态?本文将从这两个视角出发,提供关于世界模型文献的全面回顾,突出关键方法和挑战。
世界模型的潜在应用遍及多个领域,每个领域对理解能力和预测能力的要求各不相同。例如,在自动驾驶中,世界模型需要实时感知道路状况[195, 177]并准确预测其演变[127, 167, 241],特别注重即时环境感知和复杂趋势的预测。在机器人技术中,世界模型对导航[160]、物体检测[183]和任务规划[62]等任务至关重要,需要精确理解外部动态[47]并能够生成交互式和具身的环境[132]。在虚拟社会系统模拟领域,世界模型必须捕捉和预测更为抽象的行为动态,例如社会互动和人类决策过程。因此,全面回顾这些能力的进展,并探索未来研究方向和趋势,是非常及时且必要的。
现有的世界模型综述大致可分为两类,如表1所示。第一类综述主要集中在描述世界模型在特定领域的应用,如视频处理与生成[23, 242]、自动驾驶[54, 100, 209]和基于代理的应用[242]。第二类综述[116]则侧重于多模态模型向世界模型的技术过渡,这些模型能够处理跨多种模态的数据。然而,这些论文往往缺乏对世界模型究竟是什么以及不同实际应用对这些模型的需求的系统性探讨。在本文中,我们旨在正式定义和分类世界模型,回顾近期的技术进展,并探索它们广泛的应用。
本综述的主要贡献如下:(1)我们提出了一种新的世界模型分类体系,围绕两个主要功能进行结构化:构建隐性表征以理解外部世界的机制,以及预测外部世界的未来状态。第一类主要关注开发学习并内化世界知识的模型,以支持随后的决策;而第二类则强调从视觉感知中增强对物理世界的预测和模拟能力。(2)基于这一分类体系,我们对自动驾驶、机器人和社会模拟等关键应用领域如何强调世界模型的不同方面进行了分类。(3)我们强调了能够适应更广泛实际应用的世界模型未来研究方向和趋势。
本文的其余部分安排如下:第二节介绍世界模型的背景,并提出我们的分类体系;第三节和第四节分别详细阐述了当前关于两类世界模型的研究进展;第五节介绍世界模型在三个关键研究领域中的应用;第六节概述了世界模型的开放问题和未来方向。
2 背景与分类
在本节中,我们探讨了世界模型概念在文献中的发展,并将构建世界模型的工作分为两个不同的分支:内部表征和未来预测。
世界模型的概念首次由Ha等人于2018年系统地引入人工智能领域[58, 59]。这篇文章将世界模型概念的起源追溯到1971年提出的“心理模型”[43]的心理学原理,该原理认为人类将外部世界抽象为简单元素及其相互关系,以此来感知世界。这个原理表明,从深层次的内部视角来看,我们对世界的描述通常涉及构建一种抽象表征,这种表征在不需要详细描述的情况下也足以表达世界。基于这一概念框架,作者引入了一个受人类认知系统启发的代理模型,如图1所示。在这个开创性的模型中,代理从现实世界环境中获取反馈,并将其转化为一系列输入来训练模型。该模型能够模拟特定行动后,外部环境可能发生的结果。本质上,它创建了对未来世界演变的心理模拟,基于对这些状态预测结果的决策进行行动。该方法与基于模型的强化学习(MBRL)方法非常相似,两个策略都涉及模型生成外部世界的内部表征。这些表征有助于在现实世界中进行导航和解决各种决策任务。
在2022年关于自主机器智能发展的远见性文章中[98],Yann LeCun介绍了联合嵌入预测架构(JEPA),这是一个模仿人脑结构的框架。如图1所示,JEPA包括一个感知模块,处理感官数据,接着是一个认知模块,用于评估这些信息,从而有效地体现了世界模型。这个模型使大脑能够评估行动并确定最合适的应对措施,应用于现实世界。LeCun的框架之所以引人注目,是因为它融入了双系统概念,模仿了“快速”与“慢速”思维。系统1涉及直觉和本能反应:无需世界模型的快速决策,例如本能地躲避迎面而来的人。相反,系统2则采用深思熟虑的、经过计算的推理,考虑到世界的未来状态。它超越了即时的感官输入,模拟潜在的未来场景,比如预测房间里未来十分钟内可能发生的事件,并相应地调整行动。这种前瞻性思维要求构建一个世界模型,以有效地根据环境的预期动态和演变来指导决策。在这个框架中,世界模型对于理解和表征外部世界至关重要。它使用潜在变量来建模世界状态,捕捉关键信息,同时过滤掉冗余数据。这种方法使得世界的表征高度高效且极简,有助于在未来场景中做出最优决策和规划。
模型捕捉世界知识的能力对于它们在各种现实任务中的有效性至关重要。在2023年开始的关于大型语言模型(LLMs)的研究浪潮中,许多研究展示了潜在世界知识的存在。换句话说,这些模型捕捉了直观的知识,包括空间和时间理解,使它们能够对现实场景做出预测[57, 119]。此外,LLMs还能够通过认知地图对外部世界进行建模,近期的研究揭示了它们中嵌入的类脑结构[104]。这些模型甚至能够基于先前的经验预测未来事件,从而增强它们在现实情境中的效用和适用性。
上述世界模型主要代表了对外部世界的隐性理解。然而,在2024年2月,OpenAI推出了Sora模型[130],这是一个被广泛认为是世界模拟器的视频生成模型。Sora输入现实世界的视觉数据,并输出预测未来世界演变的视频帧。值得注意的是,它展示了卓越的建模能力,例如在相机移动和旋转过程中保持3D视频模拟的一致性。它还能够生成物理上合理的结果,如在汉堡包上留下咬痕,并模拟数字环境,如渲染Minecraft游戏中的第一人称视角。这些能力表明,Sora不仅模仿了世界的外观,还在模拟场景中建模了真实世界的动态,专注于真实模拟动态世界的变化,而不仅仅是表示静态世界状态。
无论是专注于学习外部世界的内部表征,还是模拟其操作原理,这些概念都凝聚成一个共同的共识:世界模型的核心目的是理解世界的动态并预测未来的场景。从这个角度出发,我们对世界模型的近期进展进行了深入的审视,并从以下几个方面进行分析,如图1所示。
-
外部世界的隐性表征(第3节):这一研究类别构建了环境变化的模型,以便做出更有根据的决策,最终目标是预测未来状态的演变。它通过将外部现实转化为潜在变量的模型来促进隐性理解。此外,随着大型语言模型(LLMs)的出现,传统决策任务中的努力得到了这些模型在世界知识描述能力上的显著提升。我们进一步关注将世界知识融入现有模型的进展。
-
外部世界的未来预测(第4节):我们首先探讨了模拟外部世界的生成模型,主要使用视觉视频数据。这些工作强调了生成的视频与未来物理世界状态的真实性。随着近期研究将焦点转向开发真正互动的物理世界,我们进一步研究了从视觉到空间表征的过渡,以及从视频到具身环境的转变。这包括全面探讨与生成具身环境相关的研究,这些环境能够模拟外部世界。
-
世界模型的应用(第5节):世界模型在多个领域中有着广泛的应用,包括自动驾驶、机器人技术和社会模拟等。我们探讨了世界模型在这些领域中的整合如何推动理论研究和实际应用的进展,强调其在现实应用中的变革潜力。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈