本文作者为人工智能科学家/上海市人工智能社会治理协同创新中心研究员刘志毅
01
深度学习与物理世界的结合
Sora模型的诞生
深度学习,作为人工智能的核心组成部分,其研究焦点正在从纯数字领域逐渐转向对物理世界的模拟和理解。在这个变革过程中,OpenAI的视频生成模型Sora,无疑是一个重要的里程碑。该模型在处理物理问题的过程中展现了令人瞩目的潜力,无论是在理解和调整物体的相对尺寸,模拟液体动力学效果,还是处理光线和阴影,或是让视频中的动作遵循真实世界的物理规律,Sora都为我们提供了一个全新的视角来审视深度学习模型的能力。
Sora模型的发布在视频生成领域引起了广泛关注,其影响可与GPT2向GPT3的技术转变媲美。虽然Sora模型在结构上可能与其前身DiT变化不大,但它在计算资源的应用上实现了质的飞跃,使用了几百倍的算力。这一突破揭示了深度学习模型在处理复杂任务时的巨大潜力,同时也证明了计算资源在推动人工智能发展中的核心地位。然而,Sora模型的出现不仅仅是一个技术上的突破,更重要的是,它引发了我们对于通用人工智能未来发展的深入思考。作为一种新型的视频生成模型,Sora模型的出现揭示了通用人工智能的可能性,即一个模型能够处理和生成不同持续时间、分辨率和宽高比的视频和图像。同时,Sora模型的出现也引发了关于世界模型的深度讨论,展现了深度学习模型在理解和模拟世界的复杂性和多样性方面的挑战。
Sora,图片来源于网络
因此,Sora模型的出现标志着深度学习领域进入了一个新的发展阶段。在这个阶段,我们不仅关注模型的技术性能,更重视模型对世界的理解和模拟,以及模型在现实世界中的应用潜力。在这个阶段,我们需要深入理解和探索深度学习的原理和技术,同时也需要关注和应对模型在应用中可能遇到的挑战和问题,如模型的训练成本、模型的可解释性、模型的泛化能力,以及模型在社会和伦理方面的影响等。
02
深度学习进入新阶段
Sora模型的技术成就与挑战
Sora模型的构建基于一系列先进的机器学习技术,包括视觉变换器(ViT),DALL-E,扩散方法以及变分自编码器(VAE)。ViT是一种特殊的Transformer模型,它在计算机视觉任务中的应用方式与传统的卷积神经网络(CNN)存在显著差异。ViT能够在像素级别直接处理图像,从而捕捉图像中的全局信息,这大大提高了图像识别和生成的准确性。DALL-E是一个以GPT-3模型为基础的图像生成模型。DALL-E能够根据自然语言描述生成图像,这体现了人工智能在理解自然语言和生成图像方面的强大能力。扩散方法是一种独特的图像生成方法,通过将图像生成过程模拟为一个扩散过程,扩散方法能够生成高质量的图像。VAE是一种生成模型,通过对数据的潜在变量进行建模,VAE能够学习数据的生成过程,从而生成新的数据。
Sora,图片来源于网络
Sora模型巧妙地将这些技术融合在一起,通过大规模的训练,成功实现了高质量的视频生成。我们来深入理解一下OpenAI的Sora模型是如何生成视频的。整个过程可以分为四个步骤:编码、添加噪声、去噪和解码。
首先,Sora模型通过一个时空编码器将输入的视频压缩成一个低维的潜在空间。这个过程就像是将一部电影压缩成一个小巧的文件,让我们可以方便地对其进行处理和传输。在这个过程中,视频被转换为一个个包含语义信息的时空图块。接下来,Sora模型会逐步为这些图块添加高斯噪声,直到它们变成完全随机的噪声。这个过程就像是把一幅清晰的画慢慢涂成一片混乱的颜色。同时,Sora模型会训练一个Transformer模型来预测我们在每一步中添加了多少噪声。然后,我们进入到反向的过程,即去噪。这一步是在用户输入了他们想要生成的视频的提示之后进行的。Sora模型会通过Transformer将这些文本提示转换为向量,然后将这些向量嵌入到模型中,作为生成图像或视频的指导。然后,Sora模型会在潜在空间中预测噪声,然后从一段完全由噪声构成的时空压缩图块中去除一定量的噪声。这个过程会重复进行,直到生成的视频接近用户输入的提示。最后,Sora模型会通过一个时空解码器,将这些在潜在空间中完成去噪过程的图块映射回像素空间,然后转换为实际的视频。这个过程就像是将压缩的电影文件解压缩成我们可以观看的电影。总的来说,Sora模型通过这四个步骤:编码、添加噪声、去噪和解码,将用户的文本提示转化为一段具有丰富细节和动态效果的视频。尽管这个过程可能听起来很复杂,但实际上,它就像是一个精巧的拼图游戏,只要我们按照正确的步骤和规则去操作,就能拼出一幅完整美丽的画面。
然而,我们必须认识到,人工智能的发展并非总是一帆风顺的。人工智能让我们看到了基于数据驱动的机器学习模型在理解世界和创造新内容方面的潜力,但同时也揭示了这种模型的局限性。Sora模型的推出引发了一系列的问题和挑战,包括模型训练的高昂成本、模型生成结果的可控性问题、以及模型可能被用于制造深度伪造视频等问题。这些问题提醒我们,发展人工智能技术的同时,我们也需要关注人工智能的伦理问题,以确保人工智能的发展能够真正造福人类社会。此外,我们也需要更深入地理解和探索计算的本质。计算不仅仅是对数据的处理和操作,更重要的是,计算是一种对世界的理解和模拟。
03
Sora模型中的科学争论
人工智能是否真正理解了物理世界?
Sora模型的出现,让我们看到了计算对于现实世界的理解和模拟的潜力,同时也让我们看到了计算的局限性。关于Sora模型是否真正理解了物理规律,学术界存在着不同的观点。以下,我们将介绍两位著名AI领域的研究者的讨论。
AI领域的重要人物之一,Meta的AI实验室负责人,图灵奖得主Yann LeCun认为,仅仅生成逼真的视频,并不能证明模型真正理解了物理世界。他强调,理想的模型应能生成视频的抽象表达,剔除与我们可能采取的行动无关的场景中的细节。这一观点与他的联合嵌入预测架构(JEPA)理论相吻合,也体现了他对深度学习模型的理解和期待。事实上,LeCun在许多公开演讲和文章中都非常支持“世界模型”的相关理论。在他看来,一个真正的智能系统,应该能够建立一个内部的世界模型,这个模型可以帮助系统理解世界的运作方式,预测未来的事件,并根据这个模型来进行决策和行动。这个观点有着深远的影响,它不仅改变了我们理解AI的方式,也为我们发展更先进的AI模型提供了新的思路。在LeCun的观点中,世界模型并不是一种固定的、预设的模型,而是一个可以通过学习和经验来不断更新和优化的模型。这意味着,一个真正的智能系统,应该能够从环境中学习,通过观察和实验来改进和优化其世界模型。这种学习和优化的过程,需要系统具有强大的学习能力和适应性,这是评价一个系统是否具有真正智能的重要标准。
图为Yann LeCun,图片来源于网络
LeCun的世界模型理论对于深度解析和评价Sora模型提供了关键的理论框架。Sora模型所展现的高质量视频生成能力,揭示了其深度理解和掌握视频生成过程的能力,这种理解和掌握构成了Sora模型的世界模型。然而,一个关键的问题在于,Sora模型的这种世界模型是如何形成的?能否通过持续学习和实验来不断更新和优化这个模型,使其更为精确地反映物理世界的规律?这些问题的答案,将对我们评价Sora模型的性能和应用前景产生决定性影响。总的来说,LeCun的世界模型理论不仅为我们深度理解和准确评价Sora模型提供了重要的理论支撑,也为我们的研究和开发工作提供了宝贵的启示。通过深入探讨这些理论和视角,我们可以更为全面地理解Sora模型,更精确地评估其性能和潜力,同时也能为我们的研究和开发工作提供更深入的理论指导和实践参考。
接下来,我们将探讨AI领域杰出贡献者、谷歌AI研究员及Keras创始人François Chollet的深度见解。Chollet从独特的角度深入分析了Sora模型。他认为,尽管Sora模型融合了物理模型,但模型的准确性和在新环境下的泛化能力才是决定其应用范围的核心因素。Chollet强调,任何模型通过有限数据学习到的现实世界的复杂性和多样性都是有限的,因此,我们不能指望一个模型仅通过拟合大量数据就能理解和模拟物理世界的所有可能情况。在他的研究中,Chollet提出了一个新的智能评价框架——“抽象推理语料库”(ARC)。该框架旨在评估系统在特定任务范围内的技能获取效率,进而评估其先验知识、经验和泛化能力等关键因素。该评价框架的核心观念是,智能并非仅在于精通特定任务,更关键的是技能获取的效率,即一个真正的智能系统应具备快速学习和适应新任务的能力,而非仅仅执行已知任务。
图为François Chollet,图片来源于网络
Chollet的观点对于深度解读和评估Sora模型具有重要的指导作用。Sora模型能够生成高质量的视频,这证明它在视频生成任务上有深度的理解。然而,我们需要探寻的是,Sora模型的这种理解是如何形成的?它是否具有快速学习和适应新视频生成任务的能力?这些问题的答案,将对我们评价Sora模型的性能和应用前景产生决定性影响。此外,Chollet的研究强调了抽象思维的重要性。他认为,抽象思维是智能的核心,是理解和模拟世界的基础。这一观点对理解Sora模型的工作原理具有重要启示。Sora模型能够生成视频,这是因为它对视频内容有了一种抽象的理解,这种理解使其能够模拟视频的生成过程。然而,我们需要追问的是,Sora模型的这种抽象理解是如何形成的?它是否能适应新的抽象任务?这些问题的答案,将决定我们对Sora模型的评价。总体而言,Chollet的研究为我们理解和评估Sora模型提供了重要的理论框架和视角。通过深入探究这些理论和观点,我们能更全面地理解Sora模型,更准确地评估其性能和潜力。同时,这也为我们的研究和开发工作提供了宝贵的启示和指导。
不同的AI研究者对Sora模型有着不同的理解和评价。这些理解和评价反映了他们对人工智能的理解,也揭示了他们对未来人工智能发展的期待。LeCun和Chollet的观点为我们提供了一个全面而深入的视角来理解和评价Sora模型,他们的观点也为我们理解和发展更先进的人工智能技术提供了重要的理论基础和启示。从以上两位学者的讨论可以看出,这场关于Sora模型的争论,实际上是对深度学习模型理解和模拟物理世界能力的检验。Sora模型通过大规模预训练,在视频数据上展现出强大的泛化能力。这对于我们理解AI模型,特别是视觉模型的发展具有重要意义。在过去,人们普遍认为,语言数据的信息密度高于视觉数据,因此,语言模型的泛化能力强于视觉模型。然而,Sora模型的成功,挑战了这一观点,它表明,视觉数据中包含的信息,如时空关系和物理规律等,同样可以通过大规模预训练被模型学习和理解,从而产生强大的泛化能力。显而易见,有关深度学习模型在处理物理问题上的潜力和挑战,引发了学界的深入思考和讨论。这种探索不仅有助于我们更深入地理解深度学习的原理和能力,也为其在数字内容等领域的应用提供了新的思路和方向。
04
深度剖析Sora模型
理解、挑战与伦理考量
模型的可解释性直接影响着我们理解和信任模型的程度,模型的泛化能力决定了其在新情况下的表现,而模型的数据依赖性则关系到其实际应用的成本和效果。因此,我们不能仅凭模型的表现就轻易地得出结论,而应该通过深入的研究和实证,来揭示模型的真实能力。根据现有公开透露的相关技术文档和情况,我们可以对Sora模型进行以下深入思考:
(一)Sora技术的推出是通用人工智能发展的重要里程碑:Sora不仅仅是一个视频生成模型,它更是一个视觉数据的通用模型,能够处理和生成不同持续时间、分辨率和宽高比的视频和图像。这表明了通用人工智能(AGI)正在从理论走向实践的步伐,有望在未来真正实现跨领域、跨模态的智能应用。
(二)Sora模型的训练方法为理解人工智能模型训练的困难和限制提供了新的见解:Sora模型采用了一个在视频和图像潜码的时空补丁上操作的变换器架构进行训练。这种训练方法需要大量的计算资源和时间,同时也存在训练效果难以预测、模型容易过拟合等问题。
(三)Sora模型的生成能力为理解人工智能的创新和创造力提供了新的视角:Sora模型能够生成一分钟的高保真视频,这显示了人工智能的创新和创造力。这种创新和创造力不仅体现在模型的技术设计上,也体现在模型的实际应用上,例如视频编辑、动画生成等。
(四)Sora模型的应用为理解人工智能的潜力和可能性提供了新的启示:Sora模型可以通过其他输入进行提示,例如现有的图像或视频,实现广泛的图像和视频编辑任务。这种应用表明,人工智能有潜力成为我们生活和工作的有力助手,为我们提供各种便利和可能性。
(五)Sora模型的局限性为理解人工智能的挑战和问题提供了新的认识:虽然Sora模型具有许多优点,但也存在许多局限性,例如它不准确地模拟许多基本交互的物理。这种局限性表明,虽然人工智能已经取得了显著的进步,但仍然面临许多挑战和问题,需要我们进一步研究和探索。
除了对技术本身的深入剖析外,我们还可以从更广义的通用AI的技术思想出发,进一步延伸出以下观点:
(一)通用人工智能的可能性与局限性:Sora模型的问世,为我们揭示了通用人工智能的潜力,即一个模型有能力处理和生成不同持续时间、分辨率和宽高比的视频和图像。然而,Sora模型同时也暴露了通用人工智能的局限性,如在模拟基本交互的物理过程上的不准确性。这些局限性提醒我们,尽管我们在通用人工智能的道路上已经取得了显著的进步,但要实现真正的通用人工智能仍是一项巨大的挑战,需要我们进一步研究和探索。
(二)重新审视计算的本质:Sora模型的成功让我们有机会重新理解计算的本质。计算不仅仅是对数据的处理和操作,更为重要的是,计算是一种对世界的理解和模拟。Sora模型通过对视频和图像数据的处理和生成,展现了计算对于现实世界的理解和模拟能力,这为我们理解计算的本质提供了新的视角。
(三)机器推理与人类思维的对比:Sora模型的推出,让我们有机会观察到机器推理与人类思维之间的相似性和差异。Sora模型能够通过处理自然语言指令和对大量数据源的访问,模拟人类的推理和知识吸收方式。这种模拟并非完全模仿人类的思维过程,而是将机器的计算能力和数据处理能力与人类的推理和知识吸收方式结合起来,形成了一种新的推理模式。
(四)人工智能与逻辑推理的关系:Sora模型的问世,让我们看到了人工智能和逻辑推理之间的密切关系。逻辑推理是人类思维的重要组成部分,也是计算的基础。Sora模型通过处理自然语言指令和对大量数据源的访问,实现了对逻辑推理的模拟。这种模拟并不完全符合人类的逻辑推理规则,但它展现了人工智能在逻辑推理上的潜力,也为我们理解人工智能与逻辑推理的关系提供了新的视角。
(五)人工智能的潜在风险与伦理问题:Sora模型的推出,让我们看到了人工智能的潜在风险和伦理问题。Sora模型能够生成高质量的视频,这使得人工智能有可能被用于制作深度伪造视频,引发一系列社会和伦理问题。这些问题让我们意识到,发展人工智能技术的同时,我们也需要密切关注人工智能的潜在风险,制定相应的规则和政策,以确保人工智能的健康发展。
05
结语
AGI,图片来源于网络
总的来说,Sora模型的问世,为我们理解和拓展通用人工智能(AGI)揭示了新的视角。这个模型的诞生,不仅挑战了我们对世界模型理论的认识,更推动了我们对AI技术与计算本质的理解。进一步地,它促使我们思考如何让AI更好地服务于我们的生活,从而真正实现人工智能的价值。与此同时,Sora模型的成功再次证实了OpenAI的Scaling Law理论。这个理论认为,模型的规模越大,其能力就越强。而Sora模型就是这个理论的一个成功实践。在Sora模型的发布之前,有人质疑单一模型的能力可能已经达到瓶颈,而OpenAI可能需要转向专家模型来提升性能。然而,Sora模型的发布,证明了单一模型仍有巨大的潜力,只要我们不断增加模型的规模,就可以持续提升模型的能力,这也验证了目前产业界对相关实践尝试的价值。
特别对于中国的AI产业界和学术界也有更大的启发,Sora模型的发布,标志着我们与通用人工智能(AGI)的再一次亲密接触。Sora模型不仅在生成视频上表现出色,而且在理解和模拟物理世界上也展现出了强大的能力。这说明,我们正在朝着构建通用人工智能的目标迈进,这是一个里程碑式的进展。随着国家对于人工智能的高度重视和大力推动,中国的AI发展,将会在全球范围内产生深远的影响。面对OpenAI的成功,我们不应该妄自菲薄。尽管我们在原创技术的研发上还有很长的路要走,但我们同样有着强大的AI模型和产品,有着在技术社区影响力极佳的优秀研究者和产品。我们应该看到自己的优势,看到自己的可能,继续努力,不断提升自己的技术创新水平,以期在未来的人工智能领域走出属于中国AI创新者的原创之路。
新书速递
朱嘉明作序推荐
探讨机器意识的起源
揭示通用人工智能全貌
京东购买链接 当当购买链接
《智能的启蒙:通用人工智能与意识机器》
作者:刘志毅,张少霆
中译出版社
2023年12月
往期推荐
独角兽DIGITALIZATION
编辑:钟筏童
校对:于 宇
审核:刘永淳