VITS-从零开始微调(finetune)训练并部署指南-支持本地云端


主要内容是如何使用本地服务器基于VITS微调(finetune)出想要的语音生成模型,并通过网页UI进行体验(也支持本地部署);

1 准备

1.1 硬件

带GPU的机器(服务器、PC、或google-colab)
内存:16GB+
显存:16GB+
建议使用N卡(我的方案是带一张T4的服务器)

1.2 系统要求

操作系统:linux
python:3.9

1.3 环境依赖

1.3.1 创建并配置虚拟环境

请提前安装anaconda,方便后续配置环境和依赖;

conda create -n vits python=3.9
conda activate vits
pip install imageio==2.4.1
pip install --upgrade youtube-dl
pip install moviepy
可能的问题

pip速度过慢:可以通过换源解决(例如清华的镜像)

pip install moviepy -i https://pypi.tuna.tsinghua.edu.cn/simple

pip安装报错pip subprocess:更换安装工具(conda)解决

pip install scipy==1.5.2
替换为
conda install scipy==1.5.2

1.3.2 复制代码库

git clone https://github.com/mengdeweide/VITS-fast-fine-tuning.git

1.3.3 配置目录

cd VITS-fast-fine-tuning
pip install -r requirements.txt
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install numpy==1.24.3
mkdir pretrained_models
mkdir video_data
mkdir raw_audio
mkdir denoised_audio
mkdir custom_character_voice
mkdir segmented_character_voice
mkdir long_video
mkdir long_audio
cd monotonic_align/
mkdir monotonic_align
python setup.py build_ext --inplace
可能的问题

后续音频处理时报错:torchaudio.load 时 Failed to load audio;(我在colab没问题,但在本地报错,发现将 torchaudio 从0.13.1 降到0.11.0就可以了)

pip install torchaudio==0.11.0 # 不一定需要,云端colab可以跑通,但我服务器环境跑不通,所以才降版本

2 训练

2.1 下载基础训练数据

cd .. # 返回根目录
# 下载基础训练数据
wget https://huggingface.co/datasets/Plachta/sampled_audio4ft/resolve/main/sampled_audio4ft.zip
unzip sampled_audio4ft.zip

2.2 下载预训练模型

#@markdown ###选择预训练模型  
#@markdown ###Choose pretrained model to start  
  • 4
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 8
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值