大模型/Sora/世界模型之间是什么关系,对自动驾驶的意义是什么?

作者 | MaggZ1  编辑 | 自动驾驶之心

原文链接:https://zhuanlan.zhihu.com/p/710035944

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心BEV感知技术交流群

本文只做学术分享,如有侵权,联系删文

个人理解,不一定准确,可以来杠,欢迎讨论。

1 什么是大模型

人工智能大模型(Artificial Intelligence Large Model,简称AI大模型)是指具有庞大的参数规模和复杂程度的机器学习模型。通常指的是参数量非常大、数据量非常大的深度学习模型。

大模型通常由数百万到数十亿的参数组成,需要大量的数据和计算资源进行训练和推理。

由于其巨大的规模,大模型具有非常强大的表示能力和泛化能力,可以在各种任务中表现出色,如语音识别、自然语言处理、计算机视觉等。

dada879460bacc8c082f43b76e7e8c2d.png

1.1 大模型的优点

1)强大的表示能力

大模型可以学习非常复杂的模式和特征,从而能够处理各种复杂的任务。

2)泛化能力强

由于大模型在大量数据上进行训练,它们可以捕捉到普遍存在的模式,因此在处理新数据时具有较好的泛化能力。

3)多任务学习

一些大模型可以同时处理多个任务,例如图像分类和目标检测,或者自然语言处理中的文本分类和情感分析。

4)预训练和迁移学习

大模型可以在大规模数据上进行预训练,然后在其他数据集上进行微调,以适应特定的任务。这种迁移学习的方法可以大大减少在新任务上的训练时间和数据需求。

通过在大量的标注和未标注的数据上进行预训练,大模型可以从中捕获通用的知识和特征,并将其存储在参数中。

然后通过对特定任务进行微调,大模型可以将预训练的知识迁移到下游任务中,极大地提高了模型的性能和泛化能力。

26df1c57c7428c2a68cf8ade4e3503d1.png

1.2 大模型的应用

大模型的典型代表有GPT-4、盘古、Switch Transformer等,它们的参数量都达到了千亿甚至万亿的规模。

除此之外,还有代码大模型、视觉大模型、多模态大模型等。

1)语言模型

语言模型是一种自然语言处理领域的深度学习模型,通过语言模型的应用,可以实现机器翻译、文本摘要、问答系统、情感分析等功能。

例如,谷歌的BERT模型可以用于提高搜索引擎的搜索质量和广告质量;OpenAI的GPT系列模型可以用于自动生成文章、对话和摘要等。

2)图像识别模型

图像识别模型是一种计算机视觉领域的深度学习模型,可以用于图像分类、目标检测、人脸识别等任务。

例如,在医疗领域,图像识别模型可以用于诊断疾病和辅助手术;在安防领域,图像识别模型可以用于监控和人脸识别等。

3)语音识别模型

语音识别模型是一种语音信号处理领域的深度学习模型,可以将语音转换成文本,并支持语音到文本的转换、语音搜索、语音控制等功能。

例如,谷歌助手、苹果的Siri、亚马逊的Alexa等智能助手都使用了语音识别技术。

4)推荐模型

推荐模型是一种个性化推荐领域的深度学习模型,可以根据用户的历史行为和偏好,推荐相关的内容和服务。

例如,在电商领域,推荐模型可以根据用户的购物历史和浏览行为,推荐相关的商品和优惠券;在新闻领域,推荐模型可以根据用户的阅读历史和兴趣,推荐相关的新闻和文章。

5)强化学习模型

强化学习模型是一种通过试错来学习行为的深度学习模型,可以用于游戏、自动驾驶等领域。

例如,DeepMind的AlphaGo可以用于玩围棋游戏;OpenAI的Dota2 AI可以用于玩Dota2游戏。

817f1e50f1a3dbcf211f46ff7b8e9fa2.png

2 什么是world model

与大模型相比,世界模型是一个更高级别的概念,它涉及到具身智能和现实世界的感知、理解和交互。世界模型试图通过对周围环境进行建模,使人工智能系统能够像人类一样理解和预测环境,从而做出相应的行动。

World Model其本质是对视频中的丰富语义以及背后的物理规律进行学习,从而对物理世界的演化产生深刻理解。

228d8c11c10445cbb67534fb9c52e606.png

举个例子,在人类的理解中,能够评估出一杯水的重量。当我们拿起一杯水时,大脑其实已经“预测”了应该用多大的力。于是,杯子被顺利拿起。但如果杯子是不透明有盖的而碰巧没有水呢?如果延续杯子有水的理解,我们就会用过大的力去拿杯子,此时发现很轻,我们立刻感觉到不对。对世界的理解里就会加上这么一条:杯子有可能是空的。于是,下次再“预测”,就会对不同内容的杯子使用不同的力。

“不断理解,不断预测”,这种理解世界的方式,是人类理解世界的方式。这种思维模式就叫做:世界模型。

人经历的事情越多,大脑里就会形成越复杂的世界模型,用于更准确地预测这个世界。这就是人类与世界交互的方式:世界模型。

5d1916813b00a031c3752c0f038b0932.png

3 什么是Sora

OpenAI官方信息从未表示Sora是world model,而是强调它是world simulator。

Sora,美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型,而是作为“世界模拟器”),于2024年2月15日(美国当地时间)正式对外发布。

Sora可以根据用户的文本提示创建最长60秒的逼真视频,该模型了解这些物体在物理世界中的存在方式,可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。

7795bc9422f0a4bce3ed815dead8ee97.png

Sora有别于其他AI视频模型的优势在于,既能准确呈现细节,又能理解物体在物理世界中的存在,并生成具有丰富情感的角色,甚至该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

8cedd85ab0bfcb0ca1964f3db823502d.png

在原理上,Sora主要通过三个步骤实现视频训练。首先是视频压缩网络,将视频或图片降维成紧凑而高效的形式。其次是时空补丁提取,将视图信息分解成更小的单元,每个单元都包含了视图中一部分的空间和时间信息,以便Sora在后续步骤中进行有针对性的处理。最后是视频生成,通过输入文本或图片进行解码加码,由Transformer模型(即ChatGPT基础转换器)决定如何将这些单元转换或组合,从而形成完整的视频内容。

fbb934e1384950630fa9eb3fc2d25f35.png

3.1 Sora的应用

  • 视频创作:用户可以根据文本生成高质量视频;

  • 扩展视频:可以在给定的视频或图片基础上,继续向前或向后延申视频;

  • Video-to-video editing:例如将SDEdit 应用于Sora,可以很容易改变原视频的风格;

  • 视频连结/过渡/转场:可以将两个视频巧妙地融合到一起,使用Sora在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡;

  • 文生图:图像可以视为单帧的视频,故Sora也能实现文生图。

3.2 目前Sora存在的缺点

尽管Sora的功能十分的强大,但其在模拟复杂场景的物理现象、理解特定因果关系、处理空间细节、以及准确描述随时间变化的事件方面OpenAI Sora都存在一定的问题。

(1)物理交互的不准确模拟:

Sora模型在模拟基本物理交互,如玻璃破碎等方面,不够精确。这可能是因为模型在训练数据中缺乏足够的这类物理事件的示例,或者模型无法充分学习和理解这些复杂物理过程的底层原理。

(2)对象状态变化的不正确:

在模拟如吃食物这类涉及对象状态显著变化的交互时,Sora可能无法始终正确反映出变化。这表明模型可能在理解和预测对象状态变化的动态过程方面存在局限。

(3)长时视频样本的不连贯性:

在生成长时间的视频样本时,Sora可能会产生不连贯的情节或细节,这可能是由于模型难以在长时间跨度内保持上下文的一致性。

(4)对象的突然出现:

视频中可能会出现对象的无缘无故出现,这表明模型在空间和时间连续性的理解上还有待提高。

f6f3c6434c9bcfdd8c900fc1d0ca21b6.png

world model是用Sora能准确生成视频一个很重要的核心,比如人在苹果上咬了一口,并不总是能“咬就会有痕”,sora“有时”也会出错。但通过训练,sora会越来越准确。

d16aee84be30c6166087865720c1f6c5.png

Sora的技术文档里有一句话:

Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.

翻译过来就是:

我们的结果表明,大规模视频生成模型是一条很有希望构建物理世界通用模拟器的道路。

OpenAI最终想做的,其实不是一个“文生视频”的工具,而是一个通用的“物理世界模拟器”。

4 大模型 Sora和世界模型对自动驾驶的意义

基于World Model所提供的丰富语义信息以及对世界强大的理解力,自动驾驶模型的感知与预测能力有望得到显著提升,规划、控制等下游任务也有望迎刃而解。

类比GPT为所有NLP问题提供了一个通用解,特斯拉、Wayve等公司不约而同地在2023年推出World Model,很大程度上是受到了GPT的启发。对于自动驾驶来说,World Model 是一个无需标注、自监督的预训练模型。可生成自动驾驶相关的连续帧视频场景。

目前,World Model或仍处于GPT-1的阶段,但考虑到目前行业整体对“大模型”潜力的强烈共识、算力的升级以及以特斯拉为代表的玩家此前积累的海量数据,World Model从0到1的爆发或较ChatGPT更快(OpenAI从GPT-1至GPT-3.5共历经4年)。

但考虑到更标准化的解决方案和更巨大的资金投入(资金需求或是这一代BEV+Transformer方案的数倍),行业内有望出现少数几家强大的World Model基础模型层平台方,以SaaS或API的方式为主机厂/运营方提供自动驾驶能力,行业格局和合作模式或将发生较大变化。

d690b12baa0faf287c4320290bed7491.png

中短期来看,World Model或将主要应用于数据合成和仿真模拟环节,厂商的车队规模对算法训练的重要性或有所下降,数据闭环的框架也将有所改变。

长期来看,World Model有潜力成为自动驾驶乃至具身智能领域的基础模型。

0173ef7cacc1d1d5b0ba765414a66ab3.png

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

c7da49a74521b1e751ec3e002d01d01c.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

7496a7c9167ac2f5ff2821ebba9a3336.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

88c73d3af0aa8ba25183280ef5f4da31.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

e3187814e81a2e41a72d4a06cd84778c.jpeg

④【自动驾驶之心】全平台矩阵

ba62e8ec43a3eed153ec939619d7aaab.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值