Sora两大核心技术,都藏在这2本书里!

b69aca71492fd594ad39eb48fa168c35.gif

e1142b998dc039a050d7d38c1b3cf26d.png

OpenAI 的新王炸,说话就能生成视频

2024 年 2 月 16 日凌晨,OpenAI 又发布王炸级产品——Sora,这是一款可以根据文本提示词直接生成视频的工具。其效果之炸裂,观者无不叹为观止。

只要使用自然语言描述情节、场景和要求,Sora 就能生成一分钟的视频内容。

d96fff2898cad249515a587928259a13.png

图注:Sora生成的春节舞龙视频

大佬周鸿袆直言“Sora 意味着 AGI 实现将从 10 年缩短到 1 年”。他为什么会这么说?

首先,Sora 展现出了模拟真实物理世界的能力。从物体运动的轨迹到光影的变换,Sora 能够确定环境中每个对象的物理特性,并根据它们计算渲染视频。以至于 Nvidia 高级研究员 Jim Fan 认为 Sora 更像是一个“数据驱动的物理引擎”。

其次,Sora 可以生成长达一分钟的视频,并且保持情节的连贯以及画面的清晰度。对比同类型工具 Runway 或者 Pika 最多十几秒的生成能力,Sora 的实力是碾压式的。

另外,Sora 还具备超强的视频处理能力,支持向前或向后扩展视频,可以将多个视频平滑连接到一起。

Sora 为啥这么厉害?因为它是一个扩散模型(Diffusion Model),是在大量不同时长、分辨率和宽高比的视频及图像上训练而成的。《扩散模型:从原理到实战》一书对扩散模型的原理与应用有详尽的说明。

9c38486cbfacf5e3e3e5e7726e156ecf.png

同时,Sora还采用了 Transformer 架构,也就是一种“扩散型 Transformer”。它通过预测干净补丁的方式生成视觉内容,再利用 Transformer 模型处理时空补丁。《GPT 图解:大模型是怎样构建的》一书提供了实现 Transformer 的完整代码示例,读者可以轻松理解 Transformer架构。

c43cfaa25b544267e75419b1910c3b6d.png

看来,扩散模型和 Transformer 是 Sora成功的关键,我们就来一探究竟吧。

a61e6e16e64be000d7cb4c52cd76def4.png

原来这就是扩散模型

02d784f7a7f6e8e9da61b5467d893696.png

《扩散模型:从原理到实战》中解释说,扩散模型是一类基于扩散思想的深度学习生成模型。而扩散思想则来自物理学中的非平衡热力学分支,一个典型研究案例就是一滴墨水在水中的扩散过程。

非平衡热力学理论可以描述这滴墨水随时间推移的扩散过程中每一个“时间步”状态的概率分布。如果可以把这个过程反过来,就可以从简单的分布中逐步推断出复杂的分布。

公认的最早扩散模型 DDPM(Denoising Diffusion Probabilistic Model)的扩散原理就是由此而来。DDPM 的扩散过程分为前向过程和反向过程两部分。

前向过程是给数据添加噪声的过程,反向过程是“去噪”的过程,即从随机噪声中迭代恢复出清晰数据的过程。

4b33f2b223285976a77a833118bd9f6b.png

在图像生成领域,DDPM 奠定了扩散模型的应用基础,随后涌现的众多扩散模型都是在此基础上进行了不同种类的改进。但在扩散模型发展早期,它生成图像的质量和稳定性还不如 GAN(Generative Adversarial Network,生成对抗网络)。

在 2021 年 5 月,OpenAI 出手发表了论文“Diffusion Models Beat GANs on Image Synthesis”,该论文介绍了在扩散过程中如何使用显式分类器引导,一举打败图像生成领域统治多年的 GAN,使得扩散模型成为新的霸主。当前一众热门的图像生成工具,诸如 Midjourney、DreamStudio、Adobe Firefly 等,都是基于扩散模型的。

可见,OpenAI 能有今日成就绝非一时侥幸,在 AIGC 大模型的发展之路上,OpenAI 的研究都走在了业界的最前沿。从文本问答 GPT 系列产品,到文生图 DALL-E 3,再到文生视频 Sora 的成功,这就是技术引导下水到渠成的结果。

需要指出的是,扩散只是一种思想,扩散模型也并非固定的深度网络结构。如果将扩散的思想融入其他领域,扩散模型同样能有出人意料的表现。

在宽广的 AI 赛道上,大家可以借鉴扩散思想,找到更多好机会。我们来继续了解扩散模型还能做成哪些事儿。

efa6319dcf7db15273e370fde1fdb74d.png

扩散模型能做成的事儿

在 AI 的多个应用领域,扩散模型都有用武之地,包括计算机视觉、时序数据预测、自然语言处理、AI基础科学等。我们对这些应用一一介绍,读者也可以结合自己的专业领域探索扩散模型的用途。

计算机视觉

扩散模型可以在图像处理任务中发挥重要作用,有如下三种场景。

  • 图像分割与目标检测。

  • 图像超分辨率。

  • 图像修复、图像翻译和图像编辑。

7f2d17cb46bd53ea79b8b37f8c57f391.png

时序数据预测

时序数据预测是根据历史观测数据,预测未来可能出现的数据。而基于扩散思想,就可以将时序数据预测视为生成任务,基于历史数据的基本条件生成未来数据。

时序数据预测可以在多种业务中应用,包括气温预测、股票价格走势预测、销售与产能预测等。

自然语言处理

基于扩散思想,只要将自然语言类的句子分词并转换为词向量后,就可以通过扩散方法来学习自然语言的语句生成,实现语言翻译、问答对话、搜索补全、情感分析、文章续写等功能。

目前这一领域的霸主还是 GPT 模型,但扩散模型在自然语言处理领域的发展还是相当值得期待的。

AI 基础科学

AI 基础科学也称 AI for Sicence,是以人工智能技术分析处理多维度、多模态、多场景下的模拟和真实数据,解决复杂推演计算问题,加快基础科学和应用科学的发现、验证、应用,打造下一代科学范式。

在基础科学中生成预测类的研究,就是扩散模型的擅长领域。例如,2021 年 DeepMind 研究的 AlphaFold 2 可以预测人类世界 98.5% 的蛋白质。

2379181c433cbffe920d496530402a83.png

2bcc3e872ebb741536c966a696ade575.png

再显神威的Transformer

在 OpenAI 一战封神的 GPT 系列产品中,Transformer 架构是助其成功的头号功臣。而 Sora 的成功再次让 Transformer 大显神威,这说明 Transformer 并非只适用于文本大模型。

Transformer起源于 2017 年,谷歌大脑团队发布了论文“Attention is All You Need”,提出了这种结构。Transformer 的核心是自注意力机制,它能够为输入序列中的每个元素分配不同的权重 ,从而更好地捕捉序列内部的依赖关系。

Transformer 还摒弃了 RNN 和 LSTM 中的循环结构,采用全新的编码器-解码器结构,这种设计使得模型可以并行处理输入数据,进一步加速训练过程,提高计算效率。

269d9b360436d4ac7123958e999c3dac.png

相对于 Runway 和 Pika 在扩散模型中使用的 U-Net来说,Transformer架构的参数可拓展性强,即参数量增加,性能加速提升,同时支持任意分辨率、长宽比、时长的视频训练数据,不会因为压缩而导致训练数据质量下降。

OpenAI 利用 Transformer 的编码能力,配合扩散模型对视频进行训练,也就使得 Sora 生成视频的时长能够远超竞争对手。

Transformer 如此重要,它的技术底层是如何实现的?答案都在《GPT 图解:大模型是怎样构建的》这本书中,完整的代码示例让你一次性悟透 Transformer。

a2f658f43cd7b2249bd0047dfc2c6d9d.png

学习两本书掌握Sora核心技术

《扩散模型:从原理到实战》

1835bbe80c9d4a1004461eb30010e915.png

本书内容基于 Jonathan Whitaker 和 Lewis Tunstall 在 Hugging Face 上开设的 Diffusion Model 课程,本书是 Hugging Face 的第一本中文图书。

Hugging Face 是为机器学习从业者提供的协作和交流平台,涵盖了机器学习各方面的知识。学习者可以在平台上开源自己的机器学习模型、数据集或者创建机器学习应用。

这本书由 Hugging Face 中国社区的本地化志愿者团队成员完成,作者团队在 AI 领域有着丰富的理论与实践经验,高质量地将在线课程转化为本书内容。

书中首先详细介绍了扩散模型的原理,以及扩散模型退化、采样、DDIM 反转等重要概念与方法。然后对 Hugging Face 平台进行了简单介绍。接着说明从零开始搭建扩散模型的完整过程。通过 Diffusers 实战,演示了生成美丽蝴蝶图像的方法。

此外还介绍了 Stable Diffusion、ControlNet 与音频扩散模型等内容。附录还提供由扩散模型生成的高质量图像集,以及 Hugging Face 社区的相关资源。

本书的最大特点就是注重实战,书中配备大量案例帮助读者快速熟悉扩散模型。同时作者们还精心设计编写了大量功能完整的代码,清晰的代码结构与注释可以帮助读者快速实现扩散模型生成精美图像。

fd016bfb0f983350941b6a3232dd425f.png

读者想学会扩散模型最好的办法,就是在阅读本书的过程中搭建自己的开发环境,编写并运行书中提供的源代码。

另外,书中通过诸多图例手把手地教会读者使用 Diffusers 库训练扩散模型,学会使用 Stable Diffusion 和 ControlNET 生成图像。读懂这本书,读者能够做到从零开始搭建扩散模型,并完成退化、训练、采样过程。

《GPT 图解:大模型是怎样构建的》

c06ab76c2b3175fd68ef849d5d4002c8.png

《GPT 图解:大模型是怎样构建的》从 NLP 技术的发展脉络梳理,讲述了 N-Gram、词袋模型(BoW)、Word2Vec(W2V)、神经概率语言模型(NPLM)、循环神经网络(RNN)、Seq2Seq(S2S)、注意力机制、Transformer,从初代 GPT 到 ChatGPT 再到 GPT-4 等一系列突破性技术的诞生与演进。

本书最大的特点是通过两位虚拟人物“咖哥”和“小冰”的对话来展开技术讨论,将枯燥的技术细节化作轻松幽默的故事和缤纷多彩的图画,引领读者穿梭于不同时空,见证自然语言处理技术的传承、演进与蜕变。5feabd6bfd34096fb61466f3a8a4bfff.png

本书对于技术的讨论也绝非停留在理论上,而是以大量代码来演示技术的底层细节。书中实现了一个完整的 Transformer 框架,包含了 10 个关键组件。基于该 Transformer 框架,还实现了一个简版 GPT,帮助读者透彻理解大模型。

本书作者黄佳,笔名就是“咖哥”,他目前是新加坡科技研究局人工智能研究员,主攻方向为 NLP 大模型的研发与应用。咖哥在 AI 领域深耕多年,在政府、银行、医疗等多个行业有丰富的 AI 实践经验。

配套资源丰富是本书另一大特色,咖哥精心编写每一章的示例代码,并编排为 Python notebook 文件。读者可以在 notebook 的交互式环境中轻松运行调试代码,观察输出结果。

ade9d60a102bf853139e3e2bb9eace65.png

在 VSCode 中运行调试 Python notebook 工程

毫无疑问,Sora 是扩散模型极其成功的应用,将来一定还会有更加出色的应用出现。对于想要在 AI 时代获得跨越发展的诸君来说,现在学会《扩散模型:从原理到实战》和《GPT 图解:大模型是怎样构建的》,就是站在未来的制高点上!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在现有省、市港口信息化系统进行有效整合基础上,借鉴新 一代的感知-传输-应用技术体系,实现对码头、船舶、货物、重 大危险源、危险货物装卸过程、航管航运等管理要素的全面感知、 有效传输和按需定制服务,为行政管理人员和相关单位及人员提 供高效的管理辅助,并为公众提供便捷、实时的水运信息服务。 建立信息整合、交换和共享机制,建立健全信息化管理支撑 体系,以及相关标准规范和安全保障体系;按照“绿色循环低碳” 交通的要求,搭建高效、弹性、高可扩展性的基于虚拟技术的信 息基础设施,支撑信息平台低成本运行,实现电子政务建设和服务模式的转变。 实现以感知港口、感知船舶、感知货物为手段,以港航智能 分析、科学决策、高效服务为目的和核心理念,构建“智慧港口”的发展体系。 结合“智慧港口”相关业务工作特点及信息化现状的实际情况,本项目具体建设目标为: 一张图(即GIS 地理信息服务平台) 在建设岸线、港口、港区、码头、泊位等港口主要基础资源图层上,建设GIS 地理信息服务平台,在此基础上依次接入和叠加规划建设、经营、安全、航管等相关业务应用专题数据,并叠 加动态数据,如 AIS/GPS/移动平台数据,逐步建成航运管理处 "一张图"。系统支持扩展框架,方便未来更多应用资源的逐步整合。 现场执法监管系统 基于港口(航管)执法基地建设规划,依托统一的执法区域 管理和数字化监控平台,通过加强对辖区内的监控,结合移动平 台,形成完整的多维路径和信息追踪,真正做到问题能发现、事态能控制、突发问题能解决。 运行监测和辅助决策系统 对区域港口与航运业务日常所需填报及监测的数据经过科 学归纳及分析,采用统一平台,消除重复的填报数据,进行企业 输入和自动录入,并进行系统智能判断,避免填入错误的数据, 输入的数据经过智能组合,自动生成各业务部门所需的数据报 表,包括字段、格式,都可以根据需要进行定制,同时满足扩展 性需要,当有新的业务监测数据表需要产生时,系统将分析新的 需求,将所需字段融合进入日常监测和决策辅助平台的统一平台中,并生成新的所需业务数据监测及决策表。 综合指挥调度系统 建设以港航应急指挥中心为枢纽,以各级管理部门和经营港 口企业为节点,快速调度、信息共享的通信网络,满足应急处置中所需要的信息采集、指挥调度和过程监控等通信保障任务。 设计思路 根据项目的建设目标和“智慧港口”信息化平台的总体框架、 设计思路、建设内容及保障措施,围绕业务协同、信息共享,充 分考虑各航运(港政)管理处内部管理的需求,平台采用“全面 整合、重点补充、突出共享、逐步完善”策略,加强重点区域或 运输通道交通基础设施、运载装备、运行环境的监测监控,完善 运行协调、应急处置通信手段,促进跨区域、跨部门信息共享和业务协同。 以“统筹协调、综合监管”为目标,以提供综合、动态、实 时、准确、实用的安全畅通和应急数据共享为核心,围绕“保畅通、抓安全、促应急"等实际需求来建设智慧港口信息化平台。 系统充分整合和利用航运管理处现有相关信息资源,以地理 信息技术、网络视频技术、互联网技术、移动通信技术、云计算 技术为支撑,结合航运管理处专网与行业数据交换平台,构建航 运管理处与各部门之间智慧、畅通、安全、高效、绿色低碳的智 慧港口信息化平台。 系统充分考虑航运管理处安全法规及安全职责今后的变化 与发展趋势,应用目前主流的、成熟的应用技术,内联外引,优势互补,使系统建设具备良好的开放性、扩展性、可维护性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值