基于检索的语音转换WebUI项目推荐
项目基础介绍和主要编程语言
项目名称: Retrieval-based Voice Conversion WebUI
项目链接: https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
主要编程语言: Python
项目核心功能
Retrieval-based Voice Conversion WebUI(RVC)是一个基于VITS的简单易用的语音转换框架。其核心功能包括:
- 音色泄漏杜绝: 使用top1检索替换输入源特征为训练集特征,有效杜绝音色泄漏。
- 快速训练: 即便在相对较差的显卡上也能快速训练模型。
- 少量数据训练: 推荐至少收集10分钟低底噪语音数据,即可得到较好结果。
- 模型融合: 通过模型融合来改变音色,借助ckpt处理选项卡中的ckpt-merge功能。
- 简单易用的网页界面: 提供用户友好的网页界面,方便操作。
- 人声和伴奏分离: 可调用UVR5模型来快速分离人声和伴奏。
- 先进的人声音高提取算法: 使用InterSpeech2023-RMVPE算法,显著提高音高提取效果,同时比crepe_full更快、资源占用更小。
项目最近更新的功能
- 实时变声界面: 新增实时变声界面,支持端到端170ms延迟,若使用ASIO输入输出设备,已能实现端到端90ms延迟。
- A卡/I卡加速支持: 新增对A卡和I卡的加速支持,提升训练和推理效率。
- 环境配置优化: 优化了环境配置流程,支持通过pip和poetry两种方式安装依赖。
- 预模型准备: 提供了详细的预模型准备指南,包括从Hugging Face space下载所需模型。
- AMD显卡Rocm支持: 新增对AMD显卡Rocm技术的支持,仅适用于Linux系统。
通过这些更新,RVC项目在功能和性能上都有了显著提升,为用户提供了更加便捷和高效的语音转换体验。