AI视频长度扩展调优技术：ExVideo帮你轻松生成更长、更优质的视频，制作抖音视频，图片直接生视频：腾讯开源的可控性AI图生视频模型，开源+大模型只需一个主题，高清短视频自动生成再无版权问题的烦恼

本文链接：https://blog.csdn.net/u014374009/article/details/141388322

AI视频长度扩展调优技术：ExVideo帮你轻松生成更长、更优质的视频，图片直接生视频：腾讯开源的可控性AI图生视频模型，开源+大模型只需一个主题，高清短视频自动生成再无版权问题的烦恼。

在这里插入图片描述

AI视频长度扩展调优技术：ExVideo帮你轻松生成更长、更优质的视频

ExVideo是阿里巴巴和华东师范大学的研究人员推出的一种视频生成模型的后调优技术。该技术可以扩展现有视频生成模型的时间尺度，从而生成更长、更丰富的视频内容。研究团队基于Stable Video Diffusion模型，训练了一种能够生成长达128帧视频的扩展模型，同时保留了原始模型的生成能力。

通过优化3D卷积、时间注意力和位置嵌入等时间模块，ExVideo使模型能够处理更长时间跨度的内容。在保持原始模型生成能力的同时，显著增加了视频帧数。此外，该技术的训练成本较低，非常适合计算资源有限的情况。

在这里插入图片描述

功能特点
时间尺度扩展能力
ExVideo突破了传统视频生成模型的时间限制，能够生成更长的视频序列，从而允许用户讲述更加丰富和完整的故事，或者展示更加连续的动态场景。

创新的后调优策略
ExVideo采用了创新的后调优方法，对现有的Stable Video Diffusion等模型进行针对性的再训练，以生成长达128帧甚至更长的视频。这种方法不仅延长了视频的持续时间，还保持了模型的泛化能力，确保了视频的多样性和适应性。

参数优化高效
与传统的视频训练方法相比，ExVideo的后调优策略避免了从头开始训练新模型的需要，而是在现有模型的基础上进行优化，大幅度减少了所需的参数量和计算资源，提高了模型扩展的效率和实用性。

高质量视频生成
ExVideo在扩展视频长度的同时，注重视频质量的维护。生成的视频在视觉连贯性、清晰度和整体质量上均达到了高标准。

广泛的兼容性和通用性
ExVideo的设计考虑了与多种视频生成模型的兼容性，使其能够适用于各种视频生成任务。无论是3D卷积、时间注意力机制还是位置嵌入技术，ExVideo都能够提供相应的扩展策略，以适应不同的模型架构。

ExVideo 技术原理
参数后调优（Post-Tuning）
ExVideo通过参数后调优的方法对现有视频生成模型进行改进。这种策略包括对模型的特定部分进行再训练，而不是重新训练整个模型，从而显著提高效率。

时间模块扩展
ExVideo针对视频生成模型的时间模块提出了以下扩展策略：

3D卷积层：用于捕捉视频中的时间维度特征。ExVideo保留了原始模型中的3D卷积层，因为它们能够适应不同的时间尺度，无需额外的微调。
时间注意力机制：为了提高模型处理长时间序列的能力，ExVideo对时间注意力模块进行了微调，以帮助模型更好地理解视频内容的时间连贯性。
位置嵌入：ExVideo引入了可训练的位置嵌入，并通过循环模式初始化，以适应更长的视频序列。
身份3D卷积层（Identity 3D Convolution）
在位置嵌入层之后，ExVideo引入了一个额外的身份3D卷积层，用于学习长期视频特征。该层在训练前初始化为单位矩阵，确保不会改变视频表示，保持与原始模型的一致性。

工程优化
ExVideo采用了以下工程优化技术以实现在有限计算资源下的高效训练：

参数冻结
混合精度训练
梯度检查点技术
使用DeepSpeed库分片优化器状态和梯度
训练过程
ExVideo使用公开可用的数据集OpenSoraPlan2进行训练，该数据集包含大量视频，以增强模型生成多样化视频的能力。

损失函数和噪声调度
在训练过程中，ExVideo保持了与原始模型一致的损失函数和噪声调度策略，确保了模型训练的稳定性和效率。

项目地址
https://ecnu-cilab.github.io/ExVideoProjectPage/

图片直接生视频：腾讯开源的可控性AI图生视频模型

MOFA-Video是一种由腾讯A1实验室和东京大学的研究人员共同开源的图像生成视频模型。该技术通过生成运动场适应器将静态图像动画化，从而生成视频。基于预训练的Stable VideoDiffusion模型，MOFA-Video能够通过稀疏控制信号（如手动轨迹、面部标记序列或音频等）实现对视频生成过程中动作的精细控制。这些控制信号不仅可以单独使用，还可以组合使用，以零样本（zero-shot）的方式进行复杂的动画制作，提供了一种全新且高度可控的图像动画视频解决方案。

功能特色
轨迹控制动画
用户可以通过在图像上手动绘制轨迹，指导MOFA-Video生成相应的视频动画。这种功能特别适用于需要精确控制物体或相机运动的场景。

面部关键点动画
系统利用面部关键点数据（例如通过面部识别技术获得的标记）来生成逼真的面部表情和头部动作动画。

混合控制动画
MOFA-Video能够将轨迹控制和面部关键点控制相结合，实现面部表情和身体动作的同步动画，创造出复杂的多部分动画效果。

音频驱动面部动画
通过分析音频信号，MOFA-Video能够生成与语音或音乐同步的面部动画，例如口型同步。

视频驱动面部动画
使用参考视频，MOFA-Video能够使静态图像中的面部动作模仿视频中的动作，实现动态的面部表情再现。

零样本多模态控制
MOFA-Video支持零样本学习，不同控制信号可以无需额外训练即可组合使用，这大大提高了动画生成的灵活性和多样性。

长视频生成能力
通过采用周期性采样策略，MOFA-Video能够生成比传统模型更长的视频动画，突破了帧数限制。

用户界面操作
MOFA-Video提供了基于Gradio的简单易用的用户界面，用户可以通过这个界面直观地进行动画生成，无需具备专业的编程技能。

工作原理
MOFA-Video动画生成技术概述

稀疏控制信号生成
在训练阶段，系统通过稀疏运动采样技术生成稀疏控制信号。这些信号可能包括基于轨迹的动画控制点、面部关键点序列或其他形式的运动指示。
MOFA-Adapter设计
MOFA-Adapter是系统的核心组件，用于将稀疏控制信号转换为密集的运动场。其主要组成部分包括：

S2D网络：将稀疏的运动提示转换为密集的运动场。
参考图像编码器：提取参考图像的多尺度特征，用于生成运动场。
特征融合编码器：将S2D网络生成的运动场与参考图像编码器的特征结合。
3. 多尺度特征提取
参考图像编码器处理输入的参考图像，提取多尺度的特征表示，这些特征将在视频帧生成过程中提供引导和变形。

运动场的生成与应用
S2D网络根据稀疏控制信号生成密集的运动场，这些运动场用于对多尺度特征进行空间变形，以模拟视频中的运动效果。
预训练的SVD模型
MOFA-Adapter与预训练的Stable Video Diffusion模型（SVD）结合，利用从MOFA-Adapter获得的条件特征来引导视频帧的生成。
空间变形
利用生成的运动场，系统对参考图像的多尺度特征进行空间变形，确保视频帧中的物体和场景元素按照预定的运动轨迹移动。
视频帧生成
在特征空间中经过变形的特征被用于生成视频帧。这一过程涉及从潜在空间中采样并逐步去除噪声，以重建清晰的视频帧。
多模态控制信号集成
MOFA-Video能够处理来自不同源的控制信号，并将它们融合到统一的生成过程中，实现复杂的动画效果。
零样本学习
MOFA-Adapter训练完成后，可以在不同控制域中无需额外训练即可联合工作，实现对视频生成的精细控制。
长视频生成策略
为了生成更长的视频，MOFA-Video采用周期性采样策略，通过在潜在空间中对帧进行分组和重新采样，解决长视频生成中的连贯性和计算复杂性问题。

项目地址
官网：https://myniuuu.github.io/MOFA_Video/

github: https://github.com/MyNiuuu/MOFA-Video

开源+大模型只需一个主题，高清短视频自动生成再无版权问题的烦恼

你是否曾经幻想过，只需灵光一闪的思绪，就能即刻转化为一部引人入胜的高清视频作品？在人工智能技术的汹涌浪潮中，这一想象已不再是遥不可及的梦想。今天，让我们共同了解一款革命性的视频制作工具 —— MoneyPrinterTurbo。

MoneyPrinterTurbo 凭借其强大的 AI 大模型技术，实现了短视频制作的全流程自动化。你只需简单地输入一个视频主题或关键词，它便能自动为你生成视频文案、精选的视频素材、恰到好处的字幕以及富有感染力的背景音乐。所有这一切，最后都会被巧妙地融合成一个令人眼前一亮的高清短视频。

MoneyPrinterTurbo：https://github.com/harry0703/MoneyPrinterTurbo

在这里插入图片描述

功能特性 🎯
完整的 MVC架构，代码结构清晰，易于维护，支持 API 和 Web界面
支持视频文案 AI自动生成，也可以自定义文案
支持多种高清视频尺寸
竖屏 9:16，1080x1920
横屏 16:9，1920x1080
支持批量视频生成，可以一次生成多个视频，然后选择一个最满意的
支持视频片段时长设置，方便调节素材切换频率
支持中文和英文视频文案
支持多种语音合成，可实时试听效果
支持字幕生成，可以调整字体、位置、颜色、大小，同时支持字幕描边设置
支持背景音乐，随机或者指定音乐文件，可设置背景音乐音量
视频素材来源高清，而且无版权，也可以使用自己的本地素材
支持 OpenAI、Moonshot、Azure、gpt4free、one-api、通义千问、Google Gemini、Ollama、 DeepSeek 等多种模型接入 -中国用户建议使用 DeepSeek 或 Moonshot 作为大模型提供商（国内可直接访问，不需要VPN。注册就送额度，基本够用）后期计划
本地部署配置要求 📦
建议最低 CPU 4核或以上，内存 8G 或以上，显卡非必须
Windows 10 或 MacOS 11.0 以上系统
具体步骤参考：https://github.com/harry0703/MoneyPrinterTurbo