清华系出手，推出全面对标Sora的视频大模型

最新推荐文章于 2024-07-11 18:45:00 发布

IT猫仔

最新推荐文章于 2024-07-11 18:45:00 发布

阅读量1.4k

点赞数 52

文章标签：人工智能 ai 学习

本文链接：https://blog.csdn.net/2301_82275412/article/details/138345622

版权

生数科技与清华大学联合推出的原创视频大模型Vidu在2024中关村论坛上亮相，展示了其16秒内保持高质量生成和语义理解的能力。Vidu拥有模拟真实物理世界、想象力丰富、多镜头语言等特性，标志着AI在视频生成领域的重大突破。

摘要由CSDN通过智能技术生成

中国首个长时长、高一致性、高动态性视频大模型Vidu发布。

智东西4月27日报道，在今日举行的2024中关村论坛人工智能主题日未来人工智能先锋论坛上，清华大学教授、生数科技首席科学家朱军宣布，生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型Vidu。

根据公开融资信息，成立于去年3月的生数科技，是当前主要国内累计融资额及估值最高的类Sora创企，迄今已完成数亿元融资，投资方包括百度风投、智谱AI、 蚂蚁集团以及创始成员多数来自于原字节跳动投资团队的锦秋基金。

朱军现场展示了Vidu与Pika、Gen-2、Sora等行业现有文生视频大模型的生成视频效果对比。他评价说，Vidu在16秒长期保持和语义理解等方面表现得非常突出。

▲使用相同提示词，Vidu与Pika、Gen-2生成视频对比

▲使用相同提示词，Vidu与Sora生成视频对比

▲Vidu生成视频的部分动图

Vidu能根据文本描述直接生成16秒高质量视频，且生成视频流畅连贯，没有明显的插帧现象。据介绍，这是因为Vidu采用的是“一步到位”的生成方式，与Sora一样，文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，无需经过多个步骤的关键帧生成和插帧处理。

01 .

一键生成16秒高清视频，

Vidu具有5大特色

Vidu支持一键生成长达16秒、1080P分辨率的高清视频内容，具备模拟真实物理世界、富有想象力、多镜头语言、高时空一致性、理解中国元素等特色。

1、模拟真实物理世界，能够生成复杂、细节丰富的场景，且符合物理规律，例如合理的光影效果、细腻的人物表情等。

▲在输入复杂SUV加速行驶在陡峭土路上的场景描述后，Vidu生成的视频（受限于可上传动图大小，做了压缩处理）

2、富有想象力，能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容。

▲Vidu根据提示词“画室里的一艘船驶向镜头”生成的视频（受限于可上传动图大小，做了压缩处理）

3、多镜头语言，能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言。

▲Vidu根据提示词“在一个古色古香的海边小屋里，阳光沐浴着房间，镜头缓慢过渡到一个阳台，俯瞰着宁静的大海，最后镜头定格在漂浮着大海、帆船和倒影般的云彩”生成的视频（受限于可上传动图大小，做了压缩处理）

4、高时空一致性，在16秒的时长上保持连贯流畅，随着镜头的移动，人物和场景在时间、空间中能够保持一致。

▲Vidu根据提示词“这是一只蓝眼睛的橙色猫的肖像，慢慢地旋转，灵感来自维米尔的《戴珍珠耳环的女孩》，画面上带着珍珠耳环，棕色头发像荷兰帽一样，黑色背景，工作室灯光”生成的视频‍

5、理解中国元素，能够理解、生成特有的中国元素，例如熊猫、龙等。

▲Vidu根据提示词“在宁静的湖边，一只熊猫热切地弹着吉他，让整个环境变得活跃起来。晴朗天空下平静的水面倒映着这一场景，以生动的全景镜头捕捉到，将现实主义与大熊猫活泼的精神融为一体，创造出活力与平静的和谐融合”生成的视频（受限于可上传动图大小，做了压缩处理）‍

02 .

快速突破源于多项原创成果，

文生视频能力加速成长中

朱军称其快速突破离不开5个要素：算法原理、模型架构、算力资源、数据治理、工程实现。

他谈道，Vidu的快速突破源于长期积累和多项原创成果，其技术路线与Sora高度一致。2022年9月，其团队在全球首发U-ViT网络架构，这是全球首个Diffusion Transformer架构，这一架构提出3个月后，Sora采用的同源基础架构DiT的论文才发表。

受限于算力限制，其团队起初选择做文生图、文生3D这类计算量相对小一些的大模型研发，2023年3月在全球首发并开源基于U-ViT架构的多模态大模型UniDiffuser，在全球范围内率先完成融合架构的大规模可扩展性（Scaling Law）验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型，支持图文模态间的任意生成和转换，在架构上比同样DiT架构的Stable Diffusion 3领先了一年。

同年5月，该团队提出文生3D新算法Prolific Dreamer，今年1月发布4D框架Animatable Dreamer并实现可生成4秒视频的文生视频模型。

“Sora出来之后，刺激了我们攻关的速度。”朱军说，团队第一时间紧急启动和攻关，3月将视频时长突破8秒，4月突破16秒，短短两个月实现了长视频表示与处理关键技术的突破，取得了今天的效果，将视频连贯性与动态性显著提升。

03 .

结语：推出Vidu大模型合作伙伴计划，

共建生态推动视频大模型发展

朱军解释说，Vidu的取名有多重含义，首先字面含义与“Video（视频）”相近，更深层的含义还表达了三个愿景：

一是谐音“We do”，“我们第一时间决定我们应该要做，而且立即去做”；二是谐音“We did”，今天的进展虽然只是迈出一小步，但确实做到在这个方向能够有突破性进展；三是“We do together”，现在的进展还在初步阶段，希望与国内优质单位合作，共同实现技术进步。

大模型的突破是一个多维度、跨领域的综合性过程，需要技术与产业应用的深度融合。为此，生数科技正式推出“Vidu大模型合作伙伴计划”，发起合作伙伴申请通道，诚邀产业链上下游的企业和研究机构共同合作，推动视频大模型发展。

-END-

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

IT猫仔

关注

52
点赞
踩
40

收藏

觉得还不错? 一键收藏
打赏
0
评论
清华系出手，推出全面对标Sora的视频大模型

朱军解释说，Vidu的取名有多重含义，首先字面含义与“Video（视频）”相近，更深层的含义还表达了三个愿景：一是谐音“We do”，“我们第一时间决定我们应该要做，而且立即去做”；二是谐音“We did”，今天的进展虽然只是迈出一小步，但确实做到在这个方向能够有突破性进展；三是“We do together”，现在的进展还在初步阶段，希望与国内优质单位合作，共同实现技术进步。大模型的突破是一个多维度、跨领域的综合性过程，需要技术与产业应用的深度融合。
复制链接

扫一扫