FoleyCrafter 使用教程

FoleyCrafter 使用教程

FoleyCrafter FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds. AI拟音大师,给你的无声视频添加生动而且同步的音效 😝 FoleyCrafter 项目地址: https://gitcode.com/gh_mirrors/fo/FoleyCrafter

1. 项目介绍

FoleyCrafter 是一个由 open-mmlab 开发的视频转音频生成框架,它可以生成与视频内容语义相关且同步的逼真音效。此项目对于提升视频的沉浸感和情感表达有着重要作用,尤其适用于电影、游戏以及任何需要音效同步的视频制作。

2. 项目快速启动

环境准备

首先,你需要安装 conda 环境,并创建一个针对 FoleyCrafter 的环境。使用以下命令:

conda env create -f requirements/environment.yaml
conda activate foleycrafter

接着,安装 GIT LFS 以便下载 checkpoints:

conda install git-lfs
git lfs install

下载 Checkpoints

运行 inference.py 脚本将会自动下载 checkpoints。你也可以手动下载,使用以下命令:

git clone https://huggingface.co/auffusion/auffusion-full-no-adapter checkpoints/auffusion
git clone https://huggingface.co/ymzhang319/FoleyCrafter checkpoints/

将下载的 checkpoints 放置在以下目录结构中:

└── checkpoints
├── semantic
│   ├── semantic_adapter.bin
├── vocoder
│   ├── vocoder.pt
│   ├── config.json
├── temporal_adapter.ckpt
└── timestamp_detector.pth.tar

启动 Gradio Demo

可以通过运行以下命令来启动 Gradio 界面:

python app.py --share

视频转音频生成

使用以下命令进行视频转音频的生成:

python inference.py --save_dir=output/sora/

3. 应用案例和最佳实践

时间对齐

使用以下命令来实现视频和音频的时间对齐:

python inference.py \
--temporal_align \
--input=input/avsync \
--save_dir=output/avsync/

基于提示的文字转音频

你可以通过添加提示词来控制生成的音频。以下是一个案例:

python inference.py \
--input=input/PromptControl/case1/ \
--seed=10201304011203481429 \
--prompt='noisy, people talking' \
--save_dir=output/PromptControl/case1_prompt/

使用负提示

你也可以使用负提示来排除某些不需要的音频特征:

python inference.py \
--input=input/PromptControl/case3/ \
--seed=10041042941301238011 \
--nprompt='river flows' \
--save_dir=output/PromptControl/case3_nprompt/

4. 典型生态项目

FoleyCrafter 是建立在 Auffusion、CondFoleyGen 和 SpecVQGAN 等项目基础之上的。我们推荐使用 Amphion 工具包来进一步探索音频、音乐和语音生成领域。

请注意,FoleyCrafter 使用 Apache-2.0 许可证。如果你将其用于商业目的,请检查 Auffusion 的许可证。

FoleyCrafter FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds. AI拟音大师,给你的无声视频添加生动而且同步的音效 😝 FoleyCrafter 项目地址: https://gitcode.com/gh_mirrors/fo/FoleyCrafter

内容概要:本文介绍了Dify——一个用于开发大型语言模型(LLM)应用程序的开源平台。Dify融合了后端即服务(BaaS)和LLMOps理念,使开发者能快速构建生产级别的生成式AI应用。它支持多种LLM模型,包括GPT、Mistral、Llama3等,并兼容多种推理提供商。Dify内置了高质量的检索增强生成(RAG)引擎和灵活的Agent框架,支持聊天助手、文本生成、Agent应用和工作流等多种应用类型。通过丰富的功能组件,如数据集管理、可视化Prompt编排、应用运营工具和插件生态系统,Dify极大简化了AI应用的开发过程。文章还展示了Dify在电商智能客服、新媒体内容生成和企业办公自动化等实际场景中的应用案例,并与FastGPT进行了对比,突出了Dify在模型接入、应用构建和用户友好度等方面的优势。 适合人群:对AI应用开发感兴趣的研发人员,尤其是希望快速构建和部署AI应用的开发者和企业。 使用场景及目标:①通过Dify的强大模型支持和RAG引擎,快速构建智能客服、内容生成等AI应用;②利用Agent框架和工作流功能,实现复杂任务的自动化处理;③通过丰富的功能组件和插件生态系统,提升应用的灵活性和功能性。 其他说明:Dify不仅提供了便捷的安装和使用指南,还展望了未来的发展前景,强调其在降低AI应用开发门槛和推动AI技术创新方面的巨大潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

梅骅屹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值