Sora模型问世!惊艳全球AI界!

继推出ChatGPT后,就在前几天,OpenAI公司又推出了最新的逆天人工智能(AI)模型——Sora。目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。

我们邀请到美国Top10 CS博士,40余篇论文一作作者Paul老师带来——惊艳的文本生成视频模型Sora,带我们深入了解Sora背后所用到的创新及突破!

扫码参与课程(赠老师授课PPT)

免费领导师亲自整理100+篇大模型论文合集

5437b4470573e8d9b11d6f20b505a75c.png

161b8239d5dcc1b0148c69b1b65cf8e1.png

导师推荐近3年热门大模型论文合集部分展示

课程讲师:Paul老师

-美国Top10 CS博士,某CCF-B类会议大模型主体Workshop的主席

-以一作/通讯等发表40余篇论文,20+个会议/期刊审稿人、PC等

-研究方向:AGI/大模型,CV,医学图像处理,AI for Science等AI交叉领域的应用和基础研究

-指导经验和风格:4年论文辅导经验,指导40余人(包括本硕博/已就业的,辅导的学生目前有取得副教授职称,也有取得GAMA offer的)

课程大纲:

1、目前主流视频生成模式

2、主流模式的缺点

3、sora的工作原理及优点

abdcb66cdc1669fdcaed657a00385e69.jpeg

扫码参与课程(赠老师授课PPT)

免费领导师亲自整理100+篇大模型论文合集

9442d99f91ff561136b47caf63ff85d6.png

Sora是OpenAI发布的一款文生视频工具它能够根据用户输入的提示词、文本指令或静态图像,生成长达一分钟的视频,其中既能实现多角度镜头的自然切换,还包含复杂的场景和生动的角色表情,且故事的逻辑性和连贯性极佳。

简单来说,Sora是通过学习视频,来理解现实世界的动态变化,并用计算机视觉技术模拟这些变化,从而创造出新的视觉内容的工具引擎。它的出现不只是一个新的技术突破,而是一个世界模型,这意味着,多模态和机器人的进步。

c1b8e32eb46b6be35d1e6dee465fdf69.png

Sora生成视频画面节选

视频生成建模是计算机领域的重要研究方向,现有的许多工作采用循环网络、GAN、自回归变换器等方法进行视频生成,但主要集中在短视频或固定大小视频上。具体的来说:

  1. 循环网络:利用LSTM/GRU等循环结构进行视频生成建模。这类方法可以捕捉视频的时序模式,但生成质量和样本效率较差。

  2. 生成对抗网络(GAN):采用生成器和判别器的对抗训练框架。GAN方法可以生成质量较高的样本,但训练不稳定,需要技巧设计。

  3. 自回归/自动回归模型:如PixelRNN/PixelCNN,采用序列建模的思想生成视频。这类方法可以控制生成过程,但计算开销大,难以并行。

  4. 扩散模型:最近兴起的一类生成模型,通过建模从简单分布到复杂数据分布的扩散过程,可以高效生成高质量样本。

然而,现有视频生成方法主要集中在特定类别的短视频和固定大小视频上,难以生成具有不同分辨率、宽高比和时间长度的通用视频数据。Sora采用大规模预训练和统一表示的策略,突破了这一限制,实现了一定程度上通用视频生成的效果。

OpenAI 认为,之前在大语言模型上的成功,得益于 Token( 可以翻译成令牌、标记、词元都可,翻译为词元会更好理解一些 ),Token 可以优雅的把代码、数学以及各种不同的自然语言进行统一进而方便规模巨大的训练。于是,他们创造了对应 Token 的 “ Patche ” 概念( 块,如果 Token 翻译为词元理解的话,Patche 或许可以被我们翻译为 “ 图块 ” )用于训练 Sora 这个视频模型。

1f840243e8a5e81754bf1d03d9e4e270.png


实际上,在大语言模型中,Token 的应用之所以会如此成功,还得益于 Transformer 架构,他与 Token 是搭配着来的,所以 Sora 作为一个视频生成扩散模型,区别于主流视频生成扩散模型采用了 Transformer 架构。

也就是说,OpenAI 赢在了经验与技术路线的选择上。

对于还没有发过第一篇论文,还不能通过其它方面来证明自己天赋异禀的科研新手,学会如何写论文、发顶会的重要性不言而喻。

发顶会到底难不难?近年来各大顶会的论文接收数量逐年攀升,身边的朋友同学也常有听闻成功发顶会,总让人觉得发顶会这事儿好像没那么难!

但是到了真正实操阶段才发现,并不那么简单,可能照着自己的想法做下去并不能写出一篇好的论文、甚至不能写出论文。掌握方法,有人指点和引导很重要!

还在为创新点而头秃的CSer,还在愁如何写出一篇好论文的科研党,一定都需要来自顶会论文作者、顶会审稿人的经验传授和指点。

很可能你卡了很久的某个点,在和学术前辈们聊完之后就能轻松解决。

扫码二维码

免费与大牛导师1v1meeting

cdf97d48ea743be376a4347e2bd3dd0e.png

853f331f1305086baafd30405078d0d7.png

文末福利

c06b02187c602214a4b76902962c7396.png

给大家送一波大福利!我整理了100节计算机全方向必学课程,包含CV&NLP&论文写作经典课程,限时免费领!

5569e75eeb1b3dd17f4dcd70f5d8db89.jpeg

fd24ab91f27cab7834d210c4388d885d.png

立即扫码 赠系列课程

END

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值