Stable Audio 在线体验及部署经验

本文主要介绍使用virtualenv库生成venv,进而部署/运行Stable-Audio-Open-1.0文生音频模型的方法。

1. 在线体验

本文代码已部署到百度飞桨AI Studio平台,以供大家在线体验。

项目链接:Stable Audio 在线体验

注意:Stable-Audio-Open-1.0 (默认fp32模式)显存峰值占用接近15GB。

2. 环境部署

python版本:3.10.10
virtualenv环境部署代码如下:

git clone https://github.com/Stability-AI/stable-audio-tools.git

cd stable-audio-tools

pip install -U virtualenv

python -m virtualenv venv

source venv/bin/activate

pip install stable_audio_tools

安装stable_audio_tools库会自动安装以下依赖库:

aeiou==0.0.20
alias-free-torch==0.0.6
auraloss==0.4.0
descript-audio-codec==1.0.0
einops==0.7.0
einops-exts==0.0.4
ema-pytorch==0.2.3
encodec==0.1.1
gradio>=3.42.0
huggingface_hub
importlib-resources==5.12.0
k-diffusion==0.1.1
laion-clap==1.1.4
local-attention==1.8.6
pandas==2.0.2
pedalboard==0.7.4
prefigure==0.0.9
pytorch_lightning==2.1.0 
PyWavelets==1.4.1
safetensors
sentencepiece==0.1.99
s3fs
torch>=2.0.1
torchaudio>=2.0.2
torchmetrics==0.11.4
tqdm
transformers
v-diffusion-pytorch==0.0.2
vector-quantize-pytorch==1.9.14
wandb==0.15.4
webdataset==0.2.48
x-transformers<1.27.0

3. 模型下载

原始链接:https://huggingface.co/stabilityai/stable-audio-open-1.0

镜像链接:https://hf-mirror.com/stabilityai/stable-audio-open-1.0 (需登录下载)

镜像链接:https://hf-mirror.com/audo/stable-audio-open-1.0 (可直接下载)

这里采用wget下载模型文件(4.5GB),下载代码:

mkdir stable-audio-open-1.0

cd stable-audio-open-1.0

wget https://hf-mirror.com/audo/stable-audio-open-1.0/resolve/main/LICENSE
wget https://hf-mirror.com/audo/stable-audio-open-1.0/resolve/main/model.safetensors
wget https://hf-mirror.com/audo/stable-audio-open-1.0/resolve/main/model_config.json
wget https://hf-mirror.com/audo/stable-audio-open-1.0/resolve/main/README.md

4. 运行

Stable-Audio-Open-1.0的运行很简单,激活虚拟环境后运行 stable-audio-tools/run_gradio.py 文件即可(可以通过 --model-config /path/to/model/config --ckpt-path /path/to/wrapped/ckpt 从自定义路径加载 model_config.jsonmodel.safetensors 文件)。

代码如下:

cd stable-audio-tools

source venv/bin/activate

python run_gradio.py --model-config stable-audio-open-1.0/model_config.json --ckpt-path stable-audio-open-1.0/model.safetensors

5. 文生音频示例

这里尝试使用乐器名称作为提示词,生成音频文件见文章绑定资源(好像非VIP无法下载,建议去百度飞桨平台在线体验)。

### Stable Diffusion 图像修复模型离线部署方法 对于希望在无网络连接环境中运行Stable Diffusion图像修复功能的情况,可以考虑采用本地化部署方案。这通常涉及几个方面的工作: #### 准备工作环境 为了确保能够在断网状态下顺利执行任务,需提前下载并配置好所有必要的依赖项和资源文件。具体来说,应该获取完整的Python虚拟环境镜像以及预训练权重参数等资料[^1]。 #### 获取模型及相关组件 针对特定应用场景定制化的稳定扩散版本可能已经包含了用于图片修补的功能模块;如果官方发布的标准版不满足需求,则可寻找社区贡献者分享的改进型分支或插件来增强原有框架的能力范围。此外,还需注意确认所选变体支持目标硬件平台(如GPU/CPU),以便后续优化性能表现[^2]。 #### 配置推理引擎 完成上述准备工作后,下一步就是调整推理设置以适应实际操作条件。考虑到效率因素,建议优先选用ONNX Runtime、TensorRT这类轻量化且高效的计算库作为后台支撑工具,并按照官方文档指示完成相应集成过程。与此同时,适当修改默认超参选项有助于进一步提升处理速度而不明显牺牲画质效果[^3]。 ```bash pip install onnxruntime-gpu torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117/ ``` #### 测试验证环节 最后,在正式投入使用前务必经过充分测试检验整个流程是否顺畅可靠。可以从公开渠道搜集一些样例素材供实验之用,观察输出成果能否达到预期质量水平的同时也要留意是否存在异常状况发生——比如内存泄漏等问题可能会严重影响用户体验甚至造成系统崩溃风险增加。一旦发现问题应及时排查原因所在并通过查阅相关论坛寻求解决方案直至彻底解决为止[^4]。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值