AI重现#少年梅兰芳登台，一致性如何做到？-CSDN博客

《少年梅兰芳登台》是我们首个真正意义上的商业合作片，之前我们自己的包括同行的作品多数因为爱好而创作。爱好创作的好处是我们不需要听取任何外界的意见，只需要倾听自己内心的声音，根据自己对于ai的了解，充分挖掘ai的潜力和特点进行创作。

最近找我们合作的机构有点多，每次我们都会问对方一个问题：“你是需要一个纯ai创作的短片来做话题？还是一个表达自己产品和主张，AI仅是手段之一的短片？

毕竟目前AI创作还有非常大的局限性。这种局限性主要体现在以下几方面：

1，AI基于海量图片/视觉素材训练，总会有难以覆盖的范围。尤其是强大的国际AI工具midjourney，对于中国丰富多样的传统文化缺乏理解，无法生成各个朝代特色的场景和人物风貌。

2，目前视觉领域最成熟的AI产品midjourney依然无法做到对细节进行十分精确修改，一致性问题还未解决，图片控制还不十分稳定；文生视频AI产品镜头运动的稳定性，动作表情的丰富性，语义理解能力等等都还处在十分早期的阶段；因此很多效果很难实现。

3，视频制作涉及文案，镜头拍摄/生成，配音配乐，剪辑，包装特效多个环节。所谓纯AI制作目前主要也是指镜头生成环节。配音配乐虽然有AI产品可用，但为追求好的情绪效果，我们依然采用的是传统的制作方式。剪辑包装就更不用说了，有时AI镜头的局限还得靠剪辑来规避。目前各环节AI技术也都不断改进中，我们跑在技术前线，随时关注技术最新的进展。

因此回到具体的内容，甲方的诉求和理解就十分重要。幸运的是我们连续遇到两个客户[得到]和[梅兰芳机构]都十分尊重我们的创作意见。

虽然我们自己觉得短片还存在这样那样的问题，但发现不管是甲方，还是网友的反馈，还是十分宽容，更多的是对我们作品的赞许。

其中，大家特别好奇和关心的一点是，我们是如何做到短片如此场景和人物一致性的？

哦~其实，我个人对人物的一致性并不十分满意。只是实在没有那么多时间去细抠和修改了。

但我们的确在一致性方面取得了一些经验，并且真的不是借助动画制作工具~我本人也并非动画专业出身，不会任何动画制作软件。。。工具只有midjourney和PS简单协助。

所谓一致性，如果仔细想，其实可以拆成三要素：场景，人脸（包括发型）和服饰。只要做到这三者视觉上的统一，加上蒙太奇手法的运用，你就差不多能做到视觉感官上的一致性。

那如何做到三者视觉上的统一呢？我们拆开来看。

场景一致性

首先场景！自从midjourney推出sref风格功能之后，让场景看上去很像基本不是问题，事实上垫图也能做到场景的视觉统一。

我们就来讲四合院那场戏，少年梅兰芳和姑父两个人在院子里练习。我们先设计一个大景，确定院子的整体宏观样貌，院子里有两个人。

提示词：一个中国大师带弟子练习，中国清朝庭院。（后面加上风格提示）

然后将大景截成小景，把人物抠掉。

再垫图，提示词中加入人物继续生成。如果不够准确，再找那个年代相似的场景一起垫图。

你就会得到一张跟大景相似场景的小景图，并且两个人变得更清晰。

接着是人物中近景，同样是拿合适的背景图垫。

其实还是做不到十分准确的一致性，但通过蒙太奇的手法，巧妙的借位，人物位置，光影和色彩的处理，还是能够一定程度”欺骗”观众的。

人头一致性

这里所说的人头主要指人脸和发型。玩mj都知道局部重绘和换脸工具，能够让人脸和发型保持一定的一致性。但都各有优劣点。

局部重绘的优点是可以对特定范围进行局部调整，可以做到侧脸，低头抬头，表情变化等，调整自由度比较高。但问题是重绘的范围，提示词，参考图都会深刻影响最终的效果，需要不断地调整，来回抽才可能达到比较满意的效果。

比如一开始下面这张图，少年梅兰芳头上有发髻，脸上五官也不对。

在第一个场景中，我们设定的梅兰芳是这样子的：

短发，大眼睛。

在这个场景中虽然换了衣服，但发型和五官得一致啊。于是我们尝试局部重绘，分别对头发和脸进行了置换，并且提示了boy is singing，才得到下面这张图。

卡通的好处是脸置换之后，即使有差别，也看上去差不多。

换脸的优点是可以做到非常准确的面部特征，但缺点是无法根据场景，剧情需要改变面部的光影和表情，除非你原有脸图和参考脸都稳合且符合需要，就能达到比较满意的效果。对于故事类短片来说，这个制作就有些苛刻了。

服饰的一致性

这可能是三点中最难的了，因为服饰还连带着人物动作，服饰的细节。其实我做得并不好。只是有一点可以分享给大家，就是抓住关键要素。事实上影响我们视觉最关键的要素是颜色。为了减少难度，人物的服侍没有任何华丽的点缀，都选的是大色块。

比如开场屋顶上的少年梅兰芳一袭白袍。

再比如，四合院里，姑父一身黑袍，黑帽。。

白鸽少年一身白衣白色翅膀，短发。

越是追求一致，一致的要素越是要简单，毕竟要同时追求场景/人物/服饰的一致，已经是在挑战midjourney对你意图的理解能力。

据说，midjourney将推出人物一致性，我挺期待，也觉得这是件非常难的事。且不说技术上的难度，单从逻辑上来看，文字描述是模糊的，图片的参考又仅仅只是参考，不能很好的表达创作者的意图。人基于视觉的沟通都如此困难，更何况是机器了。

更多细节的追求

其实，本片最大的难点可能还不是一致性，而是怎么呈现那个时代的细节特点。

梅兰芳身处清末民初，那个时代长辈们多数还留着辫子头。

（梅兰芳伯父真实画像）

于是我们尝试给梅兰芳姑父伯父设计辫子头。然而即使垫图多次尝试，midjourney生出来的辫子依旧不伦不类。

辫子生不出来，那就给长辈们戴上瓜皮帽吧。结果，就光一个瓜皮帽，抽无数次都抽不出来。最后还是靠PS来解决的问题，P一个帽子总比P一条辫子简单吧。。。。。。

最后我们直接用戴着瓜皮帽的元彪饰演的某角色来垫图

（某影视剧截图）

才有了下面这张姑父身穿黑衣黑帽教徒弟的场景。

只是帽子，我们没来得及P了。所以帽子也可以说是，但又不是那个时代的典型样貌。

不过，人物服饰的扣子却参照了原图，倒也惊喜。

因为之前我们尝试生成少年梅兰芳的扣子，这种概率是非常小的。

有时即便抽破天也非常难，比如上一个项目[得到]创作讲述宋朝某主题的历史文化节目（想哭，连续两个项目都是中国历史），有一段文字描述宋辽战争的场景。我找了很多相关影视剧关于那时辽国战士的服饰，怎么也生不出来！其过程痛苦程度还不如直接找人手绘设计。。

有的可以通过调整参考图，提升抽中的概率。比如京剧盔头的生成。

一开始是这样的。

坤哥找了几张参考图，然后生成了这样。

京剧戏服我们也是roll了很多次，但都没有达到满意的效果。最后改成了普通长袍。据后来群里一位朋友说用水彩图可以。有空去试试。不过此片，只能留下点遗憾了。

最后，感谢央妈对我们的支持，在元宵佳节把我们的短片推到了首页推荐~

这部片子是AI影视圈少有的叙事类商业片。它跟因爱好而制作的短片有非常大差异。商业片通常有着明确的目的和要求，可由于AI表达方式的有限性，实际情况是，找我们咨询的机构很多，但能充分包容并且能和你深度共创的甲方很少。因为目前AI视频并不能完全达到所有需求的交付效果。

你都看到这里了，如果觉得不错，随手点个赞在看和转发三连吧。如果想第一时间收到推送，也可以给我个星标⭐，AI影视化的路上感恩有您跟我一路相伴。

Mixlab的视频社群，

欢迎加入