Ingredients:无需额外训练的多ID视频生成框架,通过多张人物照片生成定制视频

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:支持多ID照片定制视频生成,保持身份一致性。
  2. 技术:基于面部提取器、多尺度投影器和ID路由器,实现高质量视频生成。
  3. 应用:适用于娱乐、广告、教育等多个领域,无需针对每个新身份进行训练。

正文(附运行示例)

Ingredients 是什么

ingredients

Ingredients 是一款强大的视频生成框架,能够将多个特定身份(ID)的照片与视频扩散Transformer相结合,生成高度定制化的视频内容。该框架通过三个核心模块实现:面部提取器、多尺度投影器和ID路由器。面部提取器从全局和局部视角捕捉每个身份的面部特征;多尺度投影器将这些特征映射到视频扩散模型的上下文中;ID路由器则动态分配和组合多个身份特征到相应的时间空间区域。

基于精心设计的多阶段训练协议,Ingredients 能够在无需提示约束的情况下,生成具有高度身份保真度和内容灵活性的个性化视频。这使得它在娱乐、广告、教育等多个领域具有广泛的应用前景。

Ingredients 的主要功能

  • 保持身份一致性:在生成的视频中保持多个参考图像中人物身份的一致性。
  • 灵活的内容控制:支持用户用文本提示对视频内容进行精确控制。
  • 高质量视频生成:生成具有高视觉质量和自然过渡的视频内容。
  • 无需训练的定制:无需针对每个新身份进行模型训练或微调,实现定制化视频生成。

Ingredients 的技术原理

  • 面部提取器:负责从输入的参考图像中提取每个身份的面部特征。基于全局和局部相结合的方法,从全局视角提取整体面部信息,从局部视角提取细节特征,确保生成视频中人物面部的多样性和准确性。
  • 多尺度投影器:将提取的面部特征嵌入映射到视频扩散变换器的图像查询上下文中。用多尺度特征融合和交叉注意力机制,使面部特征与视频扩散模型中的视觉令牌进行有效交互,在生成过程中准确地反映人物身份信息。
  • ID路由器:负责在视频生成的时间空间区域内动态分配和组合多个身份特征。基于位置感知的路由网络,将每个潜在的面部区域分配给唯一的身份特征,避免身份特征的混合和混淆,确保生成视频中不同人物身份的清晰区分和一致性表达。

如何运行 Ingredients

1. 环境配置

首先,确保你已经安装了 Python 3.11.0 和 Conda。然后,按照以下步骤配置环境:

conda create -n ingredients python=3.11.0
conda activate ingredients
pip install -r requirements.txt
2. 推理示例

我们提供了推理脚本 inference.py,你可以通过以下命令进行简单的测试:

python infer.py \
    --prompt "Two men in half bodies, are seated in a dimly lit room, possibly an office or meeting room, with a formal atmosphere." \
    --model_path "\path\to\model" \
    --seed 2025 \
    --img_file_path 'asserts/0.jpg' 'asserts/1.jpg'
3. Gradio Web UI

我们还提供了一个 Web 界面,你可以通过以下命令启动:

python app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值