AI语音克隆软件安装和使用教程

最新推荐文章于 2025-03-07 16:41:23 发布

2345VOR

最新推荐文章于 2025-03-07 16:41:23 发布

阅读量1.1w

点赞数 8

分类专栏： # opencv学习笔记 arduino学习文章标签：人工智能 python ai 算法

本文链接：https://blog.csdn.net/vor234/article/details/121008385

版权

arduino学习同时被 2 个专栏收录

146 篇文章

订阅专栏

opencv学习笔记

10 篇文章

订阅专栏

opencv学习笔记🧭🏔🌋🛤🏞🏜

AI语音克隆软件安装和使用教程

1. 载项目到本地
2. 下载CUDA
3. 安装依赖包
4. 安装FFMPEC
- - 4.1 方法一：
  - 4.2 方法二：（推荐方法二本人成功点亮)
5. 下载预训练模型
6. 开始训练和演示
7. 中文训练
8. 总结

1. 载项目到本地

这个算法是基于比较著名的 Real Time Voice Cloning 实现的。

MockingBird 是最近开源的中文版。去GitHub下载后解压
在这里插入图片描述

论文的名字是：

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

简单介绍下：
在这里插入图片描述

算法分为三个模块：encoder模块、systhesis模块、vocoder模块。

encoder模块将说话人的声音转换成人声的数字编码（speaker embedding）
synthesis模块将文本转换成梅尔频谱（mel-spectrogram）
vocoder模块将梅尔频谱（mel-spectrogram）转换成（波形）waveform

具体的算法原理，大家可以先看论文：

https://arxiv.org/pdf/1806.04558.pdf

2. 下载CUDA

打开anaconda，
选择environment create新建开发环境rtve
打开rtve对应的terminal

在这里插入图片描述
会出现如下显示

去Pytorch官网：选择对应电脑的版本
复制pip3下载命令

pip3 install torch==1.10.0+cu113 torchvision==0.11.1+cu113 torchaudio===0.10.0+cu113 -f https://download.pytorch.org/whl/cu113/torch_stable.html

每个人下载命令不一样相同，请按照流程操作
在这里插入图片描述
然后输入到terminal，如果下载很慢，建议下载IDM（选择普通下载就直接按照教程安装记得打开IDM插件），安装完成如下

3. 安装依赖包

依赖包的名称是requirements.txt
我直接把Github代码解压放到E盘了
在这里插入图片描述
然后在rtve 环境继续安装依赖包

pip install -r E:\Real-Time-Voice-Cloning-master\requirements.txt

输入到terminal中，下图正在安装
在这里插入图片描述
安装完成如图

4. 安装FFMPEC

4.1 方法一：

FFMPEG官网：
选择window
点击“Windows builds from gyan.dev”
在这里插入图片描述
选择所需要版本，我选最新“ version: 2021-10-24-git-9df3f147f5”

下载解压到D盘

设置环境变量，复制此路径

右键此电脑属性
点击高级的环境变量
双击系统变量的Path
然后新建刚刚复制的路径，最后点击确定

在这里插入图片描述
然后在搜索栏输入cmd（启动命令提示符）,输入

ffmpeg

出现以下情况安装成功
在这里插入图片描述

4.2 方法二：（推荐方法二本人成功点亮)

直接在anaconda环境安装
选择你的rtve环境
选all所有程序拓展
输入ffmeg点击安装即可

在这里插入图片描述

5. 下载预训练模型

预训练模型地址
在这里插入图片描述
下载解压之后放在声音源代码文件（有三个文件）

E:\Real-Time-Voice-Cloning-master

在这里插入图片描述

所有需要安装的步骤都已完成

6. 开始训练和演示

打开之前的环境rtve 的terminal
依此输入回车

e:
cd E:\Real-Time-Voice-Cloning-master
python E:\Real-Time-Voice-Cloning-master\demo_toolbox.py

在这里插入图片描述
得到操作平台

首先打开训练文件，播放对应文件，选择训练方式，播放训练结果，对比训练结果与源文件的差异，训练好后输出对应文件，不可以做违法乱纪的事情，预防电信诈骗的诡诈！👮‍♂️👮‍♀️
在这里插入图片描述

7. 中文训练

e:
cd E:\MockingBird-main
python pre.py D:\data\ -d aidatatang_200zh  -n 10#进行音频和梅尔频谱图预处理
python synthesizer_train.py mandarin D:\data\/SV2TTS/synthesizer #训练合成器：

python demo_toolbox.py -d D:\data\

中文报错实现不了

8. 总结

本文介绍做了一期有关语音克隆的教程，时间有点长，但是都会有各种各样的bug，慢慢解决就好，与此同时此方法绝不可以做违法乱纪的事情👮‍♂️👮‍♀️，预防电信诈骗的诡诈！很高兴能和大家分享！🤣🤣🤣希望你能有所收获。
参考链接：
windows环境下的Anaconda安装与OpenCV机器视觉环境搭建
危！我用python克隆了女朋友的声音！
硬核超强的AI语音克隆软件安装和使用教程
十分钟骗走五万五千元！AI声音模仿有多逼真？5秒钟克隆你的语音！