直接生成16秒高清视频我国自研视频大模型Vidu在京发布

万猫学社

已于 2024-06-24 10:11:58 修改

阅读量2.4k

点赞数 35

文章标签：人工智能 gpt

于 2024-05-06 08:32:13 首次发布

本文链接：https://blog.csdn.net/heihaozi/article/details/138481029

版权

Vidu发布

今年初，全球人工智能领域掀起了一场关于文生视频大模型Sora的热议。Sora是一个能以文本描述生成视频的人工智能模型，由美国人工智能研究机构OpenAI开发。

最近，我国自主研发的另一款文生视频大模型Vidu在2024年中关村论坛年会上首次亮相，这款模型以其“长时长、高一致性、高动态性”的特性引发了广泛关注。

据悉，Vidu是由清华大学和北京生数科技有限公司联合研发的视频大模型，能够根据文本描述直接生成长达16秒、分辨率高达1080P的高清视频内容。这款模型不仅能够模拟真实的物理世界，还具备丰富的想象力。

清华大学人工智能研究院副院长、生数科技首席科学家朱军说，目前国内的视频大模型生成的视频时长大多为4秒左右，而Vidu则能够一次性生成长达16秒的视频。他还强调，Vidu生成的视频画面连贯流畅，随着镜头的移动，人物和场景在时间和空间上都能保持高度一致性。

在动态表现力上，Vidu的能力超乎想象。它能够生成复杂且动态的镜头，不仅局限于简单的推进、拉近或移动等基础镜头效果。更值得一提的是，它能在一个画面内实现远景、近景、中景和特写等各种镜头的无缝切换，甚至能直接生成长镜头、追焦和转场等复杂效果。

朱军进一步介绍：“Vidu能够模拟真实的物理世界，创造出细节丰富且符合物理规律的场景，比如合理的光影效果、精细的人物表情等。它还能创造出深度丰富且复杂的超现实主义内容。”他还指出，由于Vidu采用了“一步到位”的生成方式，视频片段能从头到尾连续生成，避免了明显的插帧现象。

Vidu生成视频的效果

Vidu还能生成如熊猫、龙等各种形象。

点击观看视频：

中国首个长时长、高一致性、高动态性视频大模型，「Vidu」登场！

据了解，Vidu的技术突破来自于团队在机器学习和多模态大模型方面的长期积累。其核心技术架构早在2022年就已经由团队提出，并从此开始了持续的自主研发。朱军表示：“作为一款通用视觉模型，我们坚信，Vidu未来能够支持生成更多样化、更长时长的视频内容，探索各种生成任务。其灵活的架构也将兼容更广泛的模态，进一步推动多模态通用能力的边界。”