全面深入解读Movie Gen技术原理(5部曲)：概述 (1)

本文链接：https://blog.csdn.net/ljp1919/article/details/142742970

1. 引言

小伙伴们好，我是微信公众号《小窗幽记机器学习》的小编：卖蚵仔煎的小男孩。紧接此前的文章：突发！Meta重磅发布Movie Gen入局视频生成赛道！，这几天临时搁置端侧大模型系列专题的深挖，先腾挪些时间阅读Meta官方发布的Movie Gen技术报告，从而基于官方一手资料详细解读Movie Gen模型。

小窗幽记机器学习

记录机器学习过程中的点点滴滴和坑坑洼洼

公众号

2024年10月4日，Meta发布其视频生成产品Movie Gen，对标OpenAI的Sora、Runway等视频生成工具。这标志着Meta正式进入视频生成赛道，与Pika、Runway等进行同台竞技。

为何诸多大厂进入视频生成赛道开卷？随着大语言模型不断突破，研究人员需要寻找下一个终极目标，确立下一座待征服的高峰，而以视频为打底的全模态是各类技术集大成的外显。集图文音视的全模态将是下一个竞技场。

人类具有惊人的想象力，能够组合概念并预测现实属性，那么如何像《盗梦空间》那样造梦？人人都是导演或者说人人都是造梦师的时代是否随着视频生成技术的成熟而成真？Meta给出的方案是Movie Gen。这是一组生成多媒体内容(图片、视频和音频)的基础模型，可以生成高质量的图像、视频和音频。此外，Meta在上述基础模型上构建了2个应用：视频编辑和生成个性化视频的应用。值得一提的是生成个性化视频，这将使得生成视频的可控制进一步提高，如此可以"我"或者我想要的主体作为主角演绎出一段视频。更多Movie Gen生成视频示例请前往文章末尾。

2. 简介

研究发现，通过扩大训练数据、计算资源和模型参数，使用Flow Matching训练的Transformer模型可以生成高质量的视频或音频。Meta据此打造Movie Gen的2种基础模型：Movie Gen Video和Movie Gen Audio。Movie Gen Video和Movie Gen Audio模型参数量分别是300亿和130亿。基于Movie Gen Video基础模型进一步训练后，得到可以生成可个性化视频的Personalized Movie Gen Video模型和可精确编辑视频的Movie Gen Edit。

Movie Gen系列模型在多项视频和音频生成任务上取得业界最先进水平，包括文本到视频生成、视频个性化、精确视频编辑、音效生成、音乐生成和音频延伸等方面。其性能优于许多商业系统和先前的研究工作。

Meta官方计划公开发布多个基准测试，并提供详细的模型架构、训练和实验设置信息，以加速多媒体视频生成模型的研究。需要说明的是，官方并没有提到开源事宜，所以Movie Gen模型很大概率不会开源。

3. 模型概述

Movie Gen系列模型生成带有同步音频的视频，个性化角色，并支持视频编辑，如图1所示。

这些广泛的功能通过2个基础模型实现:

Movie Gen Video。这是一个300亿参数(30B)的联合文本到图像和文本到视频生成的基础模型，可以生成长达16秒且符合文本提示的高质量高清视频。该模型自然地生成多种宽高比和可变分辨率、时长的高质量图像和视频。该模型在约1亿个视频和10亿张图像上进行预训练，通过"观看"视频学习视觉世界。预训练模型可以推理物体运动、主体-客体交互、几何、相机运动和物理学，并学习各种概念的合理运动。为了改进视频生成，在一小组精选的高质量视频和文本说明上进行监督微调(SFT)。第3节介绍模型架构和训练细节。
Movie Gen Audio。这是一个130亿参数(13B)的视频和文本到音频生成基础模型，可以生成48kHz高质量的电影音效和或与视频输入同步的音乐，并遵循输入的文本提示。该模型自然处理可变长度的音频生成，通过音频延伸技术可以为长达几分钟的视频生成连贯的长音频。该模型在约100万小时的音频上预训练，它不仅学习了物理关联，还学习了视觉和音频世界之间的心理关联。该模型在即使声源不可见的时候，依然可以生成与视觉场景匹配的环境声音，还可以生成与视觉动作同步的声音效果。此外，它可以生成支持情绪并与视觉场景动作一致的非场景音乐，并专业地混合音效和背景音乐。最后，官方进一步在一小组精选的更高质量的(文本，音频)和(视频，文本，音频)数据上进行SFT，以改善整体音频质量并追求电影风格。原始报告的第6章节概述了模型和训练方法。

在训练之后，为基础Movie Gen Video模型添加了视频个性化和视频编辑功能:

视频个性化。个性化使视频生成模型能够根据文本和一个人的图像生成包含所选人物的视频。生成的个性化视频保持了该人的身份，同时遵循文本提示。使用包含人类的视频子集，并自动构建(图像，文本)输入和视频输出对来训练模型。第4节概述了个性化的后训练策略。
视频编辑。精准编辑允许用户使用文本指令轻松对真实和生成的视频进行精确和富有想象力的编辑。由于大规模监督视频编辑数据更难获得，Movie Gen官方展示了一种无需监督视频编辑数据就能训练这种视频编辑模型的新方法(第5部曲)。在https: //go.fb.me/MovieGen-Figure24 中提供了模型的视频编辑功能示例。

后文将从图像和视频联合生成、个性化视频生成、精准视频编辑、音频生成这4个方面分别深度解读。感兴趣的小伙们可以留意本微信公众号：

小窗幽记机器学习

记录机器学习过程中的点点滴滴和坑坑洼洼

公众号

附录：Movie Gen效果欣赏

生成个性化视频功能演示：

AI科技爱科学

视频编辑功能演示：

AI科技爱科学