即梦PixelDance：从追赶到领跑，一跃成为全球AI竞赛的领航者！

最新推荐文章于 2025-05-13 20:33:05 发布

我:yueda

最新推荐文章于 2025-05-13 20:33:05 发布

阅读量922

点赞数 6

文章标签：人工智能 OpenAI

本文链接：https://blog.csdn.net/qq_40585384/article/details/142579273

版权

今年2月份，OpenAI发布了全新的文生视频模型Sora，那一次的发布，成功开启了AI视频生成的ChatGPT时刻。

看到Sora的发布视频，我相信有很多小伙伴和我一样被深深得震撼了！

只需一个指令就可以生成一段逼近真实的视频：一个美女走在东京街头，绚丽的霓虹灯，甚至地面上的反光和倒影都非常真实。
![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/7d7215b11ed14cabb3d40345ee84df4c.png

那时候我在网上看到很多有关的评论：中国的互联网公司都在研究怎么卖菜……这样革命性的科技成果永远不会发生在中国……

但sora在发布之后，虽然后来也断续发布了一些视频，却并没有表现出重大进展的迹象，甚至于有一部分的AI领域专家认为，Sora他已经直接隐身了。

“西边不亮，东边亮”——AI视频新纪元到来

1、快手可灵AI

在2024年世界人工智能大会（WAIC）上，快手的高级副总裁于越对可灵AI的部分产品更新以及最新数据进行了介绍。

作为才发布一个月的产品，可灵AI的更新极为频繁。其产品从内测时的App端拓展到了Web端；
在这里插入图片描述
功能也从最初的文生视频，陆续增添了图生视频、视频续写、多尺寸选择、高画质版、首尾帧控制、镜头控制等新功能。

可灵大模型上线一个月以来，累计申请用户数60万+，开通用户数30万+，生成视频数700万。

可灵AI凭借大幅度运动的合理性和物理世界特性的高度模拟能力在国内外社交媒体和技术社区广泛讨论。

在某宝平台，当时一个可灵的账号可以买到700+元，可见其火爆程度。

从7月份开始可灵AI生成的视频就赶超Sora，可灵凭一己之力，掀起了老照片修复和生成视频的小浪潮！在各大平台掀起热搜。
在这里插入图片描述

2、PixelDance

可灵的热度还没消退，字节跳动的火山引擎发布会上，我们再次见证了一个足以颠覆行业的AI视频的全新起点——豆包视频生成的PixelDance模型正式亮相。

震撼！限制我们的只能是想象了！

生成的视频质感完全不输电影！大家可以点击上面的视频欣赏下。唯一遗憾的是现在还没有开放……

但已经可以申请内测了，内测链接我会放在文末，大家赶紧立即申请内测机会，早就是优势……不要等到像可灵一样，前面有50万人在排队！

PixelDance的特点： 能够理解复杂的文本提示(Prompt)，实现多个主体间的交互和多动作指令。例如，人物的交互、背景的动态行为都能通过一个简单的提示完成。
在这里插入图片描述
强大动态与炫酷运镜并存: 针对高动态的复杂场景视频，模型设计了高效的DiT融合计算单元，使生成视频的动作更灵动，镜头更多样，表情更丰富，细节更丰满。支持超多镜头语言，灵活控制视角，带来真实世界的体验。
在这里插入图片描述
一致性多镜头生成: 全新设计的扩散模型训练方法使得模型具备一键生成故事性多镜头短片的能力，并且成功攻克了多镜头切换时一致性的技术挑战，可10秒讲述一个起承转合的故事。

在一个prompt内实现多个镜头切换，同时保持主体，风格，氛围的致性，让更多用户可以使用模型一键制作短片，实现导演自由。
在这里插入图片描述
多风格、多比例兼容： 深度优化后的Transformer结构，大大提升了视频生成的泛化能力，支持包括黑白、3d动画、22d动画、国画、水彩水粉等多种风格，包含1:1、3:4、4:、16:9、9:16、21:9六个比例，带你领略更自由的世界。
在这里插入图片描述