直接生成16秒高清视频 我国自研视频大模型Vidu在京发布

Vidu发布

今年初,全球人工智能领域掀起了一场关于文生视频大模型Sora的热议。Sora是一个能以文本描述生成视频的人工智能模型,由美国人工智能研究机构OpenAI开发。

最近,我国自主研发的另一款文生视频大模型Vidu在2024年中关村论坛年会上首次亮相,这款模型以其“长时长、高一致性、高动态性”的特性引发了广泛关注。

据悉,Vidu是由清华大学和北京生数科技有限公司联合研发的视频大模型,能够根据文本描述直接生成长达16秒、分辨率高达1080P的高清视频内容。这款模型不仅能够模拟真实的物理世界,还具备丰富的想象力。

清华大学人工智能研究院副院长、生数科技首席科学家朱军说,目前国内的视频大模型生成的视频时长大多为4秒左右,而Vidu则能够一次性生成长达16秒的视频。他还强调,Vidu生成的视频画面连贯流畅,随着镜头的移动,人物和场景在时间和空间上都能保持高度一致性。

在动态表现力上,Vidu的能力超乎想象。它能够生成复杂且动态的镜头,不仅局限于简单的推进、拉近或移动等基础镜头效果。更值得一提的是,它能在一个画面内实现远景、近景、中景和特写等各种镜头的无缝切换,甚至能直接生成长镜头、追焦和转场等复杂效果。

朱军进一步介绍:“Vidu能够模拟真实的物理世界,创造出细节丰富且符合物理规律的场景,比如合理的光影效果、精细的人物表情等。它还能创造出深度丰富且复杂的超现实主义内容。”他还指出,由于Vidu采用了“一步到位”的生成方式,视频片段能从头到尾连续生成,避免了明显的插帧现象。

Vidu生成视频的效果

Vidu还能生成如熊猫、龙等各种形象。


点击观看视频:

中国首个长时长、高一致性、高动态性视频大模型,「Vidu」登场!

据了解,Vidu的技术突破来自于团队在机器学习和多模态大模型方面的长期积累。其核心技术架构早在2022年就已经由团队提出,并从此开始了持续的自主研发。朱军表示:“作为一款通用视觉模型,我们坚信,Vidu未来能够支持生成更多样化、更长时长的视频内容,探索各种生成任务。其灵活的架构也将兼容更广泛的模态,进一步推动多模态通用能力的边界。”

  • 35
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 37
    评论
评论 37
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

万猫学社

您的鼓励将是我创作的最大动力。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值