【AIGC】OpenAI推出王炸级模型sora,颠覆AI视频行业

heaven522

于 2024-06-11 14:24:32 发布

阅读量1k

点赞数 14

文章标签： AIGC 人工智能系统架构 stable diffusion

本文链接：https://blog.csdn.net/heaven522/article/details/139598121

版权

文章目录

```
*       * 强烈推荐
```
- 前言
- 什么是OpenAI Sora？
- 工作原理：
- 算法原理：
- 应用场景展望
- 与其他视频生成模型相比有哪些优势和不足？
- ```
    * 优点
```
  - 缺点
- 总结
- 强烈推荐
- 专栏集锦
- 写在最后

![579a429daf314744b995f37351b46548](https://img-
blog.csdnimg.cn/img_convert/2f40b15c4248fe7d675804089f4f9432.gif)

强烈推荐

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站:人工智能

前言

2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。

据了解，通过文本指令，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

刚刚发布的google的Gemini pro 1.5就一下子变得无人问津了，太尴尬了。

什么是OpenAI Sora？

OpenAI Sora是一种结合了Diffusion模型和Transformer模型的技术 。
通过将视频压缩网络将原始视频压缩到一个低维的潜在空间，并将这些表示分解为时空补丁，类似于Transformer的tokens，这样的表示使得模型能够有效地训练在不同分辨率、持续时间和宽高比的视频和图像上。

工作原理：

Sora扩散模型的工作原理是通过结合变换器主干和扩散模型，利用文本条件扩散模型对视频和图像潜在代码的时空补丁进行操作，从而实现文本到视频的生成。

算法原理：

简单来说就是用了transformer+diffusion结构，对视频结构做了全面创新。

首先对视频进行进行处理，变成有时序的向量，transformer非常擅长一个向量预测下一个向量，所以无论是语言还是视频，都需要将原本的信息变为一个高维向量组成的序列。对于GPT而言，这个最小单位是token，对于Sora而言，这个最小单位叫做patch。

区别是，语言中比如词或者词组是天然的token，且天然就是有顺序的一维线性排列。而视频除了有时序，还有长和宽，所以patch化之后是一个由高纬向量组成的三维空间，他们又用一个压缩模型处理成了单维向量序列。

![image-20240219230146239](https://img-
blog.csdnimg.cn/img_convert/87c605cb222d795754b6dccdb8a98580.png)

应用场景展望

视频内容创作：

Sora可以帮助视频内容创作者更快速地生成高质量的视频内容，例如视频编辑、特效制作等。

视频游戏开发：

开发者可以利用Sora来创建逼真的游戏场景、角色动画等，提升游戏的视觉效果和用户体验。

视频监控与安防：

Sora可以用于视频监控系统中，实现智能识别、行为分析等功能，帮助提高安防监控的效率和准确性。

视频教育与培训：

教育机构或企业可以利用Sora开发智能教学系统，提供个性化、交互式的视频教育与培训服务。

视频内容分析与搜索：

Sora可以用于视频内容的自动标注、分类、检索等任务，帮助用户更快速地找到他们感兴趣的视频内容。

与其他视频生成模型相比有哪些优势和不足？

优点

强大的功能和潜力 ：

Sora展示了在图像和视频编辑领域的巨大潜力，能够处理复杂的图像和视频编辑任务。

对现实世界的理解和模拟 ：

OpenAI利用其大语言模型的优势，使Sora实现了对现实世界的理解和对世界的模拟两层理解。

长视频生成能力 ：

Sora能够生成非常长的视频，这在技术上是一个突破，尤其是在制作2秒和1分钟视频时，差异巨大。

采用成熟的技术方案 ：

Sora采用了扩散模型架构，这是一个比较成熟的技术方案，与DALL-E类似，从随机噪音开始逐步去噪生成视频。

准确遵循用户提示 ：

Sora能够根据用户提示生成视频，这使得它能够生成准确遵循用户提示的高质量视频。

缺点

难以准确模拟复杂场景 ：

官方指出当前的模型存在弱点，可能难以准确模拟复杂场景的要求。

错误累积问题 ：

尽管Sora能够生成非常长的视频，但仍面临如何解决错误累积，并在时间上保持质量和一致性的挑战。

总结

随着技术的不断进步和应用场景的不断拓展，OpenAI的视频大模型Sora在未来可能会发挥更加重要和广泛的作用，为视频处理和分析领域带来更多创新和应用。

强烈推荐

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站:[人工智能]

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

heaven522

关注

14
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
【AIGC】OpenAI推出王炸级模型sora,颠覆AI视频行业

2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。据了解，通过文本指令，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。刚刚发布的google的Gemini pro 1.5就一下子变得无人问津了，太尴尬了。OpenAI Sora是一种结合了Diffusion模型和Transformer模型的技术。
复制链接

扫一扫