OpenAI划时代文本生成视频大模型Sora技术报告最全详细解读

在这里插入图片描述

OpenAI 2月16日凌晨发布了文生视频大模型Sora,在科技圈引起一连串的震惊和感叹,在2023年,我们见证了文生文、文生图的进展速度,视频可以说是人类被AI攻占最慢的一块“处女地”。而在2024年开年,OpenAI就发布了王炸文生视频大模型Sora,它能够仅仅根据提示词,生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。

tokyo-walk

报告总览

首先我们来梳理一下Sora报告的技术要点:

一.模型训练

1.Sora的架构是扩散模型Diffusion Model和Transformer.

在最开始的文生视频领域,常用的有RNN\GAN\DM模型。Sora属于扩散模型。

扩散模型展现出卓越的优势,相较于GAN而言,它在生成多样性和训练稳定性方面更为出色。最为关键的是,在图片和视频生成领域,扩散模型呈现出更为广阔的发展空间。相较于GAN模型本质上是机器对人的模仿,扩散模型更像是机器真正学会了“成为一个人”。这不仅突显了其在生成领域的前沿地位,还彰显了其在理解和模拟人类特质方面的独特能力。因此,扩散模型不仅在技术上取得了显著的进步,更为全面地超越了传统的生成对抗网络。

说得直白一点,GAN模型就像是一位学徒,他一边不停地对着样本作画,一边接受着老师的不断评分以进行提升“训练”(生成器和判别器的相互博弈)。最终画家可能取得了不小的进步画出逼真的作品,但整个过程难以精确控制,有时候会走火入魔&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DFCED

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值