金磊 发自 深圳
量子位 | 公众号 QbitAI
要论最近最火的AI视频生成模型,无疑就属字节豆包了。
也就是字节一口气亮出的PixelDance模型和Seaweed模型。
而且大家都说效果好,那这不就得亲自测试一波喽,而且是直接上难度的那种——
最近抖音里很多人都在模仿林黛玉哭泣,我们不妨用“全字节系的AI”来制作一支《红楼梦》的MV。
然后啊,效果简直就是一个大写的万万没想到!话不多说,直接展示成果:
不论是生成的多人物、画面的质量,甚至是故事情节,豆包的视频可以说是相当有《红楼梦》那味儿了。
而也正如刚才提到的,打造这支MV背后的AI,统统都是字节系。
现在我们就来一一拆解细节步骤。
第一步,用豆包查询《红楼梦》中的经典片段原文,作为生成图片的Prompt。
例如王熙凤出场的名场面,豆包给出了这样的答案:
第二步,我们直接用《红楼梦》中的原文片段,“喂”给字节的即梦,让它先生成一幅画。
例如我们采用的Prompt是:
红楼梦,只见一群媳妇丫鬟围拥着一个人从后房门进来。这个人打扮与众姑娘不同,彩绣辉煌,恍若神妃仙子:头上戴着金丝八宝攒珠髻,绾着朝阳五凤挂珠钗;项上带着赤金盘螭璎珞圈;裙边系着豆绿宫绦,双衡比目玫瑰佩;身上穿着缕金百蝶穿花大红洋缎窄裉袄,外罩五彩刻丝石青银鼠褂;下着翡翠撒花洋绉裙。一双丹凤三角眼,两弯柳叶吊梢眉,身量苗条,体格风骚,粉面含春威不露,丹唇未启笑先闻。
所有生成的图片如下所示(左滑查看下一张图):