OpenAI发布全新文本生成视频大模型Sora,可以生成无比逼真的最长60秒的视频,且生成的视频尺寸可以任意指定

本文原文来自DataLearnerAI官方网站:

OpenAI发布全新文本生成视频大模型Sora,可以生成无比逼真的最长60秒的视频,且生成的视频尺寸可以任意指定 | 数据学习者官方网站(Datalearner)icon-default.png?t=N7T8https://www.datalearner.com/blog/1051708046782555

OpenAI宣布发布全新的Diffusion大模型Sora,这是一个可以生成最长60秒视频的视频生成大模型,最大的特点是可以生成非常逼真的电影画面版的视频。

OpenAI的视频生成模型Sora模型介绍和特点

Sora是OpenAI开发的一款先进AI模型,它能根据文本指令创造出高质量、逼真的视频,不仅拓宽了创作的边界,还融合了安全措施和社区的反馈。它主要的技术特点如下:

  • 利用扩散模型和Transformer架构,Sora具备了从文本、静态图片或扩展已有视频中生成视频的能力,也就是说Sora可以基于文本或者图片或者视频来生成或者扩展。因此,OpenAI的Sora是一个可以接受任意模态输入并生成视频的模型。

  • 此模型被训练以理解和模拟物理世界的动态,助力于解决现实世界互动问题的挑战。因此,OpenAI的Sora可以生成更加逼真的视频。

  • Sora能制作长达一分钟的视频,不仅视觉质量上乘,而且能精确响应用户的指令,内容涵盖从都市风光到动漫人物等多种场景。时间上更长意味着视频更加连贯。

OpenAI的Sora模型的实际效果

官方公布了OpenAI Sora的实际测试结果,非常令人惊叹。OpenAI的Sora生成的视频合集地址:https://www.douyin.com/user/self?modal_id=7336019234973109515

实例1:在东京街头行走

下图是视频截图,

实例2:淘金热期间加利福尼亚州的历史录像

下面这个视频的Prompt是“Prompt: Historical footage of California during the gold rush.”,就这样简单一句话生成的视频非常具有年代感,似乎是电影纪录片。

实例3:飞奔的SUV

输入的Prompt:The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.

视频截图:

这是生成一个跟随行驶SUV的镜头,除了运动、真实以外,SUV的细节也非常好。Prompt描述的是黑色车顶的行李架的复古SUV,被松树包围的陡峭土路,都十分准确。

OpenAI Sora模型技术报告总结

本次OpenAI还公布了Sora模型的一些技术细节,相比较GPT-4,这次公布了稍微多一点点的内容。

首先,OpenAI是在在不同持续时间、分辨率和宽高比的视频和图像上联合训练conditional diffusion models。OpenAI利用了一种在视频和图像潜在代码的时空patches上操作的transformer架构。最大的模型就是Sora,能够生成一分钟的高保真视频。OpenAI认为,扩大视频生成模型的规模是朝向构建物理世界的通用目的模拟器的有希望的路径


上图展示了更高层次的Sora方法的原理,通过首先将视频压缩到低维的潜在空间,然后将这些表示分解为时空patches,OpenAI Sora实现了视频到patches的转换。

OpenAI Sora当前的情况

虽然OpenAI官方宣布了Sora模型,但是目前并没有开放给大众使用。

关于OpenAI的Sora模型更多技术介绍参考原文博客:OpenAI发布全新文本生成视频大模型Sora,可以生成无比逼真的最长60秒的视频,且生成的视频尺寸可以任意指定 | 数据学习者官方网站(Datalearner)

OpenAI的Sora生成的视频合集地址:https://www.douyin.com/user/self?modal_id=7336019234973109515

  • 12
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值