AudioLDM2 开源项目使用指南

韶格珍

于 2024-10-10 07:20:40 发布

阅读量516

点赞数 6

本文链接：https://blog.csdn.net/gitblog_00555/article/details/142802762

版权

AudioLDM2 开源项目使用指南

AudioLDM2 Text-to-Audio/Music Generation 项目地址: https://gitcode.com/gh_mirrors/au/AudioLDM2

1. 项目介绍

AudioLDM2 是一个开源的文本到音频/音乐生成项目，由 haoheliu 开发并托管在 GitHub 上。该项目支持文本到音频（包括音乐）、文本到语音生成以及超分辨率修复。AudioLDM2 提供了多种预训练模型，用户可以根据需求选择不同的模型进行音频生成。

2. 项目快速启动

2.1 环境准备

首先，确保你已经安装了 Python 3.8 或更高版本。然后，创建并激活一个虚拟环境：

conda create -n audioldm python=3.8
conda activate audioldm

2.2 安装 AudioLDM2

使用 pip 安装 AudioLDM2：

pip3 install git+https://github.com/haoheliu/AudioLDM2.git

2.3 启动 Web 应用

安装完成后，你可以启动一个基于 Gradio 的 Web 应用程序来生成音频：

python3 app.py

启动后，系统会打印出一个链接，点击链接即可在浏览器中打开应用并开始生成音频。

2.4 命令行使用

你也可以通过命令行直接生成音频。例如，生成基于文本提示的音乐：

audioldm2 -t "Musical constellations twinkling in the night sky, forming a cosmic melody"

3. 应用案例和最佳实践

3.1 音乐生成

使用 AudioLDM2 生成音乐非常简单。只需提供一个文本提示，模型就会生成相应的音乐片段。例如：

audioldm2 -t "A slow, melancholic piano piece with a touch of sadness"

3.2 文本到语音

AudioLDM2 还支持文本到语音的生成。你可以指定说话者的描述和文本内容：

audioldm2 -t "A female reporter is speaking full of emotion" --transcription "Wish you have a good day"

3.3 超分辨率修复

AudioLDM2 还支持音频的超分辨率修复，可以提高音频的质量。

4. 典型生态项目

4.1 Hugging Face 🧨 Diffusers

AudioLDM2 与 Hugging Face 的 Diffusers 库集成，提供了更快的推理速度和更灵活的音频生成功能。你可以通过以下命令安装 Diffusers 和 Transformers：

pip install --upgrade git+https://github.com/huggingface/diffusers.git transformers accelerate

然后，使用 Diffusers 库加载 AudioLDM2 模型并生成音频：

from diffusers import AudioLDM2Pipeline
import torch
import scipy

repo_id = "cvssp/audioldm2"
pipe = AudioLDM2Pipeline.from_pretrained(repo_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "Techno music with a strong, upbeat tempo and high melodic riffs"
audio = pipe(prompt, num_inference_steps=200, audio_length_in_s=10.0).audios[0]
scipy.io.wavfile.write("techno.wav", rate=16000, data=audio)