目录
主要内容是如何使用本地服务器基于VITS微调(finetune)出想要的语音生成模型,并通过网页UI进行体验(也支持本地部署);
1 准备
1.1 硬件
带GPU的机器(服务器、PC、或google-colab)
内存:16GB+
显存:16GB+
建议使用N卡(我的方案是带一张T4的服务器)
1.2 系统要求
操作系统:linux
python:3.9
1.3 环境依赖
1.3.1 创建并配置虚拟环境
请提前安装anaconda,方便后续配置环境和依赖;
conda create -n vits python=3.9
conda activate vits
pip install imageio==2.4.1
pip install --upgrade youtube-dl
pip install moviepy
可能的问题
pip速度过慢:可以通过换源解决(例如清华的镜像)
pip install moviepy -i https://pypi.tuna.tsinghua.edu.cn/simple
pip安装报错pip subprocess:更换安装工具(conda)解决
pip install scipy==1.5.2
替换为
conda install scipy==1.5.2
1.3.2 复制代码库
git clone https://github.com/mengdeweide/VITS-fast-fine-tuning.git
1.3.3 配置目录
cd VITS-fast-fine-tuning
pip install -r requirements.txt
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install numpy==1.24.3
mkdir pretrained_models
mkdir video_data
mkdir raw_audio
mkdir denoised_audio
mkdir custom_character_voice
mkdir segmented_character_voice
mkdir long_video
mkdir long_audio
cd monotonic_align/
mkdir monotonic_align
python setup.py build_ext --inplace
可能的问题
后续音频处理时报错:torchaudio.load 时 Failed to load audio;(我在colab没问题,但在本地报错,发现将 torchaudio 从0.13.1 降到0.11.0就可以了)
pip install torchaudio==0.11.0 # 不一定需要,云端colab可以跑通,但我服务器环境跑不通,所以才降版本
2 训练
2.1 下载基础训练数据
cd .. # 返回根目录
# 下载基础训练数据
wget https://huggingface.co/datasets/Plachta/sampled_audio4ft/resolve/main/sampled_audio4ft.zip
unzip sampled_audio4ft.zip
2.2 下载预训练模型
#@markdown ###选择预训练模型
#@markdown ###Choose pretrained model to start