Real-Time-Voice-Cloning的使用教程

1 环境的搭建

我安装版本:

  • 在虚拟环境tf1
  • tensorflow-gpu==1.15.0
  • torch==1.4.0

2 如何使用Real-Time-Voice-Cloning

2.1 下载预训练的模型

1、官方给出的预训练模型下载连接

2、下载打包好的预训练模型pretrained.zip模型,直接解压即可!

unzip pretrained.zip

在这里插入图片描述

解压后的文件会自动放置到如下的路径下:

encoder\saved_models\pretrained.pt
synthesizer\saved_models\logs-pretrained\taco_pretrained\checkpoint
synthesizer\saved_models\logs-pretrained\taco_pretrained\tacotron_model.ckpt-278000.data-00000-of-00001
synthesizer\saved_models\logs-pretrained\taco_pretrained\tacotron_model.ckpt-278000.index
synthesizer\saved_models\logs-pretrained\taco_pretrained\tacotron_model.ckpt-278000.meta
vocoder\saved_models\pretrained\pretrained.pt

2.2 先测试环境是否可用(optional)

你可以先用如下的命令进行测试:

python demo_cli.py

如果测试通过,没有报错则表示环境没有问题,当然该步骤是可选的,你也可以不测试!

2.3 下载数据集(optional)

对于仅使用工具箱的情况,仅仅建议下载LibriSpeech / train-clean-100。 将内容提取为<datasets_root> / LibriSpeech / train-clean-100,其中<datasets_root>是您选择的目录。 toolbox中支持其他数据集,请参见此处。 你可以自由地不下载任何数据集,但是您将需要自己的数据作为音频文件,或者必须使用工具箱记录下来。

2.4 运行ToolBox

运行toolbox,如果你已经下载了数据集,可以用如下的命令

python demo_toolbox.py -d <datasets_root>

如果你没有下载数据集,直接运行

python demo_toolbox.py

在这里插入图片描述

3 常见错误

3.1 错误1:OSError: PortAudio library not found

1、错误:在运行python demo_toolbox.py的时候程序直接报错:OSError: PortAudio library not found

(tf1) shl@zhihui-mint:~/shl_res/1_project/Real-Time-Voice-Cloning$ python demo_toolbox.py -h
/home/shl/shl_res/1_project/Real-Time-Voice-Cloning/encoder/audio.py:13: UserWarning: Unable to import 'webrtcvad'. This package enables noise removal and is recommended.
  warn("Unable to import 'webrtcvad'. This package enables noise removal and is recommended.")
Traceback (most recent call last):
  File "demo_toolbox.py", line 2, in <module>
    from toolbox import Toolbox
  File "/home/shl/shl_res/1_project/Real-Time-Voice-Cloning/toolbox/__init__.py", line 1, in <module>
    from toolbox.ui import UI
  File "/home/shl/shl_res/1_project/Real-Time-Voice-Cloning/toolbox/ui.py", line 10, in <module>
    import sounddevice as sd
  File "/home/shl/anaconda3/envs/tf1/lib/python3.6/site-packages/sounddevice.py", line 71, in <module>
    raise OSError('PortAudio library not found')
OSError: PortAudio library not found
(tf1) shl@zhihui-mint:~/shl_res/1_project/Real-Time-Voice-Cloning$ 

2、解决方式(参考):

sudo apt-get install libportaudio2

(tf1) shl@zhihui-mint:~/shl_res/1_project/Real-Time-Voice-Cloning$ sudo apt-get install libportaudio2 
[sudo] password for shl:       
正在读取软件包列表... 完成
正在分析软件包的依赖关系树       
正在读取状态信息... 完成       
下列【新】软件包将被安装:
  libportaudio2
升级了 0 个软件包,新安装了 1 个软件包,要卸载 0 个软件包,有 394 个软件包未被升级。
需要下载 64.6 kB 的归档。
解压缩后会消耗 215 kB 的额外空间。
获取:1 http://mirrors.aliyun.com/ubuntu bionic/universe amd64 libportaudio2 amd64 19.6.0-1 [64.6 kB]
已下载 64.6 kB,耗时 0(341 kB/s)     
正在选中未选择的软件包 libportaudio2:amd64。
(正在读取数据库 ... 系统当前共安装有 356909 个文件和目录。)
正准备解包 .../libportaudio2_19.6.0-1_amd64.deb  ...
正在解包 libportaudio2:amd64 (19.6.0-1) ...
正在设置 libportaudio2:amd64 (19.6.0-1) ...
正在处理用于 libc-bin (2.27-3ubuntu1.3) 的触发器 ...
/sbin/ldconfig.real: /usr/local/cuda-10.2/targets/x86_64-linux/lib/libcudnn.so.7 is not a symbolic link

(tf1) shl@zhihui-mint:~/shl_res/1_project/Real-Time-Voice-Cloning$ 

3、再次运行错误解决

(tf1) shl@zhihui-mint:~/shl_res/1_project/Real-Time-Voice-Cloning$ python demo_toolbox.py -h
/home/shl/shl_res/1_project/Real-Time-Voice-Cloning/encoder/audio.py:13: UserWarning: Unable to import 'webrtcvad'. This package enables noise removal and is recommended.
  warn("Unable to import 'webrtcvad'. This package enables noise removal and is recommended.")
/home/shl/anaconda3/envs/tf1/lib/python3.6/site-packages/umap/__init__.py:9: UserWarning: Tensorflow not installed; ParametricUMAP will be unavailable
  warn("Tensorflow not installed; ParametricUMAP will be unavailable")
usage: demo_toolbox.py [-h] [-d DATASETS_ROOT] [-e ENC_MODELS_DIR]
                       [-s SYN_MODELS_DIR] [-v VOC_MODELS_DIR] [--low_mem]
                       [--seed SEED] [--no_mp3_support]

Runs the toolbox

optional arguments:
  -h, --help            show this help message and exit
  -d DATASETS_ROOT, --datasets_root DATASETS_ROOT
                        Path to the directory containing your datasets. See
                        toolbox/__init__.py for a list of supported datasets.
                        (default: None)
  -e ENC_MODELS_DIR, --enc_models_dir ENC_MODELS_DIR
                        Directory containing saved encoder models (default:
                        encoder/saved_models)
  -s SYN_MODELS_DIR, --syn_models_dir SYN_MODELS_DIR
                        Directory containing saved synthesizer models
                        (default: synthesizer/saved_models)
  -v VOC_MODELS_DIR, --voc_models_dir VOC_MODELS_DIR
                        Directory containing saved vocoder models (default:
                        vocoder/saved_models)
  --low_mem             If True, the memory used by the synthesizer will be
                        freed after each use. Adds large overhead but allows
                        to save some GPU memory for lower-end GPUs. (default:
                        False)
  --seed SEED           Optional random number seed value to make toolbox
                        deterministic. (default: None)
  --no_mp3_support      If True, no mp3 files are allowed. (default: False)
(tf1) shl@zhihui-mint:~/shl_res/1_project/Real-Time-Voice-Cloning$ 

4 训练其他语言的数据集

目前,作者提供的是只支持英语,其他语言的训练应该也是支持的,可以看这个issues,但是貌似对数据集的要求很高,要求:

  • 你必须有一个300小时指定有语言的语音数据集
  • 而且语音的质量必须好

目前我没有尝试过这部分!

  • 参考1:https://zhuanlan.zhihu.com/p/72589678
  • 参考2:https://blog.csdn.net/Lucas23/article/details/107765779
  • 参考3:https://juejin.cn/post/6872260516966842382
  • 参考4:https://zhuanlan.zhihu.com/p/112627134 # 对原理的介绍
  • 参考5:https://github.com/KuangDD/zhrtvc # 对中文的实现
  • 参考6:https://www.youtube.com/watch?reload=9&v=-O_hYhToKoA # YouTube教程
欢迎大家关注笔者,你的关注是我持续更博的最大动力


原创文章,转载告知,盗版必究

微信:suihailiang0816
QQ:931762054
wx公众号:仰望星空的小随
  • 8
    点赞
  • 62
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
### 回答1: Real-time voice cloning(实时语音克隆)是一种神经网络模型,可以将一种人的语音风格应用到另一种人的语音上,从而实现语音克隆的效果。这个模型使用了深度学习技术,通过训练来学习如何提取语音特征并将其应用到新的语音数据上面。 如果您需要下载Real-time voice cloning模型,可以前往GitHub平台上的相关存储库进行下载。这个项目的GitHub存储库包含了所有的源代码和训练数据,可以用于构建、训练和部署这个模型。通过下载、运行这个模型,您可以实现语音克隆效果,并将其应用于不同的应用场景中。 为了获得更好的下载体验,建议使用高速网络和稳定的计算机设备。同时,您需要了解一些基本的机器学习知识和编程技能来运行这个模型。如果您是初学者,可以通过阅读文档和参考示例代码来学习如何使用这个模型。 总之,Real-time voice cloning模型是一种非常有趣的技术,可以实现语音克隆的效果。下载这个模型可以让您更好地理解这个模型的工作原理,并且有助于将其应用于实际应用中。 ### 回答2: real-time-voice-cloning模型是一种声音克隆模型,它可以在真实时间内对不同说话者的声音进行克隆,从而让一个人的声音变得像另外一个人的声音。该模型的下载过程比较简单,可以通过GitHub等网站进行下载。首先,用户需要在网站上找到real-time-voice-cloning模型的下载链接,并点击进入下载页面。然后,用户需要选择下载该模型的具体版本,并选择适合自己的操作系统进行下载。下载完成后,用户需要解压缩文件,并在文件中找到模型的代码文件和训练数据文件。用户可以使用Python等编程语言打开模型代码文件,并使用训练数据文件进行模型的训练和测试。在使用该模型时,用户需要了解一些基本的音频处理知识,并且需要对模型的具体参数和使用方法进行深入了解,从而让模型的效果达到最佳状态。需要注意的是,real-time-voice-cloning模型是一种高级模型,适合于一些对声音克隆有深入研究的专业人士。普通用户也可以使用该模型进行一些简单的声音克隆操作,但需要付出更多的努力和精力。 ### 回答3: real-time-voice-cloning模型是一种语音克隆模型,可以模仿并复制人类的语音。如果想要下载该模型,首先需要访问相关的官方网站,查找并下载该软件。该模型的下载过程需要经过一系列的步骤,包括访问该软件的官方网站、选择相应的版本和操作系统等内容。在下载前,需要先了解相关的系统要求和文件大小,以确保系统环境和硬盘空间充足。下载过程中需要保持网络连接稳定,并仔细阅读下载页面上的提示和条款,确保自己同意相关的使用协议和隐私政策。下载完成后,需要进一步配置该模型的环境和参数,以便正确地调用和使用该软件。最后,使用前还需要进行测试验证,确保该软件能够正常运行,达到预期的效果。总之,下载real-time-voice-cloning模型需要仔细操作,并遵守相关的协议和规定,以获得最佳的使用体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值