全新豆包AI视频模型发布！实测下的可灵与豆包！原来它们的差距不止一点点...

本文链接：https://blog.csdn.net/m0_56647251/article/details/142639323

字节全新豆包AI视频模型——PixelDance和Seaweed模型刚发布，AI博主“数字生命卡兹克”就对其进行多方位实测。

当小编看到具体实测后，也彻底惊呆了...“这真的不是真人秀吗？”

随后不禁又产生疑问，豆包和其他的AI视频工具相比，谁才是老大？

在博主文章的末尾，看到这位粉丝提出这样的疑问

全新的豆包AI视频模型居然可以完胜火遍国内外的可灵？为了验证心中这个疑问，小编将实测可灵，从人物的复杂连续动作，多镜头组合视频，极致的运镜控制三个角度出发，与博主实测的全新豆包AI视频模型成果进行对比，

一、人物的复杂连续动作

博主在文章中让图中女生，摘下墨镜，站起身，然后走向雕像。

博主实测豆包PixelDance：查看视频

可灵使用相同的图片进行实测：查看视频

00:05

小编在使用可灵生成时，运用了其中的运动笔刷，绘制女人行走到雕塑的运动轨迹，但可灵生成的女人不但墨镜没有摘下，感觉快要睡在了地上，无法完成“摘墨镜”“站起来”“走向雕像”的一连串动作。

虽然豆包PixelDance在最后没有走向图片中的白色雕像，但是它比可灵更好的完成了摘墨镜，站起来的连续动作。人物神情复杂程度上，可灵会不会比豆包更好呢？博主po出使用豆包PixelDance生成一个老人笑着笑着，就哭了的实测。

动图封面

虽然表情顺序有稍许不同，先表现出老人眼眶含泪，然后表现老人微笑，但是它将老人的神情表现刻画的更细腻——红了的眼眶，视频末脸颊上出现的泪滴，媲美真人表现。

让我们再看看可灵实测：查看视频

00:05

可灵视频中，老人表现出大多是悲伤的神情，缺少笑的表现，连续神情的变化，可灵在视频中没有体现。

小结

人物的复杂连续动作能力，可灵输给了豆包。经过连续人物动作测试和人物连续表情测试，可灵最多表现出其中一个点，而豆包呈现的视频包含了所有动作和表情，并且衔接的非常流利自然。

除此之外，可灵的文本指令理解能力比豆包差了很多。可灵只做了拿手去摘墨镜的动作，墨镜依然在脸上；让女孩站起来却变成要睡在了地上。这让小编感到十分的不理解。在第一轮比拼中，豆包获胜。

二、多镜头组合视频

博主在文章中表明，如今除了豆包PixelDance，依然没有任何一个AI视频，能做到单视频多镜头，而且还能保证完美的一致性。表示豆包PixelDance表现出的一致性简直无敌，只需要一张图+Prompt就行。

如果我们在可灵上也使用一张图+Prompt进行视频生成，也可以完成多镜头的表现吗？

我们采用与博主一样的Prompt：拿着镰刀的死神朝女人走近。镜头切换，特写女人的脸，她惊恐地尖叫。

博主实测豆包PixelDance ：查看视频

00:10

点击查看可灵实测：

很显然，可灵无法完成，它只完成了提示词中的一个镜头——死神走向女人，并没有切换到女人惊恐的镜头。并且可灵视频中呈现的死神，脸部五官逐渐模糊扭曲。让我们再给可灵一次表现的机会。

依旧采用与博主同样的Prompt：白色机器人抬起双手拿着一把步枪对着画面左侧不断射击。枪口射出一道绿色的能量光线。镜头切换，画面左侧是一个黑色的机器人，一道绿光从画面右侧快速射入，击中了它的身体，黑色机器人被击倒并爆炸。镜头切换，背面拍摄白色机器人，它望向远处的爆炸，转身走出了画面。博主实测豆包PixelDance：