Retrieval-based-Voice-Conversion-WebUI 安装与配置指南

Retrieval-based-Voice-Conversion-WebUI 安装与配置指南

1. 项目基础介绍

Retrieval-based-Voice-Conversion-WebUI 是一个基于深度学习的声音转换框架。它通过检索技术实现源声音特征到训练集特征的转换,从而减少音调泄露问题。该项目提供了一个易于使用的Web界面,用户可以方便地进行声音模型的训练和实时声音转换。

主要编程语言:Python

2. 项目使用的关键技术和框架

  • VITS (Voice conversion with Integer-scale Mel-spectrogram and WaveNet): 是该项目的基础模型,用于生成高质量的声音。
  • UVR5 (Ultimate Vocal Remover): 用于快速分离人声和乐器。
  • RMVPE (Raw Moment Voice Pitch Extraction): 用于提取声音的基频,改善高音提取效果。
  • PyTorch: 用于构建和训练深度学习模型。

3. 项目安装和配置的准备工作

在开始安装之前,请确保您的系统中已经安装了以下依赖:

  • Python 3.8 到 Python 3.11 版本
  • pip(Python的包管理工具)

详细安装步骤

步骤 1:克隆项目

首先,您需要从GitHub上克隆项目到本地计算机:

git clone https://github.com/fumiama/Retrieval-based-Voice-Conversion-WebUI.git
cd Retrieval-based-Voice-Conversion-WebUI
步骤 2:设置虚拟环境

建议使用虚拟环境来管理项目的依赖,以避免与系统中的其他Python项目冲突:

python -m venv venv
source venv/bin/activate  # 在Windows系统中使用 `venv\Scripts\activate`
步骤 3:安装依赖

根据您的显卡类型,选择相应的依赖文件进行安装:

  • 对于NVIDIA GPU,运行:

    pip install -r requirements/main.txt
    
  • 对于AMD/Intel GPU,运行:

    pip install -r requirements/dml.txt
    
  • 如果您使用的是基于AMD ROCM技术的Linux系统,运行:

    pip install -r requirements/amd.txt
    
  • 对于使用Intel IPEX技术的Linux系统,运行:

    pip install -r requirements/ipex.txt
    
步骤 4:准备其他文件

项目需要一些位于assets文件夹中的预训练模型文件。您可以:

  • 让程序在启动时自动检查和下载所需的资源。
  • 或者手动下载所有资源,具体命令和步骤请参考项目tools文件夹中的脚本。
步骤 5:启动Web界面

安装完所有依赖后,您可以使用以下命令启动Web界面:

python web.py

在浏览器中输入http://localhost:5000,就可以开始使用这个声音转换工具了。

以上就是Retrieval-based-Voice-Conversion-WebUI的详细安装和配置指南。按照以上步骤操作,您应该能够成功安装并在本地运行该项目。

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

e C:WINDOWSsystem32lcmd. X C ets/pretrained_ v2/f0D48k pth -l 0 -c 0 -sw 0 -v v2 INFO:LXX:í 'data' : í 'filter_ length': 2048, 'hop_ length': 480, 'max_ _wav_ value' : 32768.0, 'mel_ fmax': None, 'mel_ fmin': 0.0, 'n_ mel channels': 128, sampling rate' :48000, ' win length': 2048, ' training. files': ' ./logsllL XX/filelist.txt'3, 'model': i 'filter_ channels': 768, 'gin_ channels': 256, 'hidden_ channels': 192, 'inter_ channels': 192, 'kernel_ size': 3, 'n _heads': 2, 'n_ layers': 6, 'p_ dropout': 0, 'resblock': '1', ' resblock. dilation sizes': [[1, 3, 5], [1, 3, 5], [1, 3, 5]],' resblock_ kernel_ sizes': [3, 7, 11], 'spk_ embed_ dim': 109, 'upsample initial_ channel' : 512, ' upsample kernel_ sizes': [2420, ц, 4], ' upsample rates': [12, 10, 2, 2], 'use_ spectral norm': False], 'train': i'batch_ size': 15, 'betas': [0.8, 0.99]'c_ kl': 1.0, 'c_ mel': 45, ' epochs': 20000, 'eps': 1e09, 'fp16_ run': False, 'init _lr ratio': 1, 'learning rate': 00001, 'log interval': 200, 'lr decay': 0.999875, seed': 1234, 'segment_ size': 17280, ' warmup_ epochs': 03, 'model dir' :'. /logsIILXX', ' experiment_ dir': ' ./logsIILXX' , 'save_ every epoch': 10, 'name': 'LXX', 'total_ epoch': 80, ' pretrainG'' assets/ pretrained v2/ f0G48k. pth' , ' pretrainD' : ' assets/ pretrained v2/ f0D48k.pth' , 'version': 'v2' , 'gpus': '0', ' sample_rate': '48k', 'if fo': 1, 'if_latest': 0, ' save_ every weights': 'o', 'if cache data in_ gpu': 0f Process Process-1: Traceback (most recent call last): File "F: Retrieval-based-Voice-Convers ion-WebUI Python_ embededlibmultiprocessingprocess . py", line 314, in bootstraP self . run() File "F: Retrieval-based-Voice- Convers ion-WebUIlPython embededliblmultiprocessingprocess py", line 108, in runself ._target(*self. args, **self . _kwargs ) File "F: Retrieval-based-Voice Conversion-WebUI' infermodulesltrainltrain.py", line 137, in run train_ dataset = TextAudioL oaderMultiNSFs id(hps . data. training files, hps . data) File "F: Retrieval-based-VoiceConversion-WebUI inferllibltrainldata utils.py", line 32, in_ init__ self._ filter() File "F:lRetrieval-based-Voice- Convers ion-WebUIlinferlibltrainldata utils.py", line 46, in filter lengths . append(os . path. getsize(audiopath) 11 (3 * self. hop, _length)) File "F: Retrieval-based-Voice-Conversion-WebUI Python embededliblgenericpath.py", line 50, in getsize return os . stat(filename).st_ size FileNotFoundError: [WinError 3] Ã 5tXTEÆ ÉBi. : 'F:llRetrieval-based-Voice Convers ion-WebUI/logs/mute/0_ gt_ wavs/mute48k . wav ' rvc模型训练报错,这是错误日志,我如何修改。
最新发布
05-29
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

皮泉绮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值