Ingredients：无需额外训练的多ID视频生成框架，通过多张人物照片生成定制视频-CSDN博客

本文链接：https://blog.csdn.net/qq_19841021/article/details/145044274

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

功能：支持多ID照片定制视频生成，保持身份一致性。
技术：基于面部提取器、多尺度投影器和ID路由器，实现高质量视频生成。
应用：适用于娱乐、广告、教育等多个领域，无需针对每个新身份进行训练。

正文（附运行示例）

Ingredients 是什么

ingredients

Ingredients 是一款强大的视频生成框架，能够将多个特定身份（ID）的照片与视频扩散Transformer相结合，生成高度定制化的视频内容。该框架通过三个核心模块实现：面部提取器、多尺度投影器和ID路由器。面部提取器从全局和局部视角捕捉每个身份的面部特征；多尺度投影器将这些特征映射到视频扩散模型的上下文中；ID路由器则动态分配和组合多个身份特征到相应的时间空间区域。

基于精心设计的多阶段训练协议，Ingredients 能够在无需提示约束的情况下，生成具有高度身份保真度和内容灵活性的个性化视频。这使得它在娱乐、广告、教育等多个领域具有广泛的应用前景。

Ingredients 的主要功能

保持身份一致性：在生成的视频中保持多个参考图像中人物身份的一致性。
灵活的内容控制：支持用户用文本提示对视频内容进行精确控制。
高质量视频生成：生成具有高视觉质量和自然过渡的视频内容。
无需训练的定制：无需针对每个新身份进行模型训练或微调，实现定制化视频生成。

Ingredients 的技术原理

面部提取器：负责从输入的参考图像中提取每个身份的面部特征。基于全局和局部相结合的方法，从全局视角提取整体面部信息，从局部视角提取细节特征，确保生成视频中人物面部的多样性和准确性。
多尺度投影器：将提取的面部特征嵌入映射到视频扩散变换器的图像查询上下文中。用多尺度特征融合和交叉注意力机制，使面部特征与视频扩散模型中的视觉令牌进行有效交互，在生成过程中准确地反映人物身份信息。
ID路由器：负责在视频生成的时间空间区域内动态分配和组合多个身份特征。基于位置感知的路由网络，将每个潜在的面部区域分配给唯一的身份特征，避免身份特征的混合和混淆，确保生成视频中不同人物身份的清晰区分和一致性表达。

如何运行 Ingredients

1. 环境配置

首先，确保你已经安装了 Python 3.11.0 和 Conda。然后，按照以下步骤配置环境：

conda create -n ingredients python=3.11.0
conda activate ingredients
pip install -r requirements.txt

2. 推理示例

我们提供了推理脚本 inference.py，你可以通过以下命令进行简单的测试：

python infer.py \
    --prompt "Two men in half bodies, are seated in a dimly lit room, possibly an office or meeting room, with a formal atmosphere." \
    --model_path "\path\to\model" \
    --seed 2025 \
    --img_file_path 'asserts/0.jpg' 'asserts/1.jpg'