Real-Time-Voice-Cloning　安装使用笔记

最新推荐文章于 2024-03-19 09:32:35 发布

Lucas23

最新推荐文章于 2024-03-19 09:32:35 发布

阅读量1.1w

点赞数 6

分类专栏：日记自然科学.IT辑（音视频开发）文章标签： tts

本文链接：https://blog.csdn.net/Lucas23/article/details/107765779

版权

自然科学.IT辑（音视频开发）同时被 2 个专栏收录

6 篇文章 2 订阅

订阅专栏

日记

1 篇文章 0 订阅

订阅专栏

Real-Time-Voice-Cloning　安装使用

Real-Time-Voice-Cloning　是“Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis（SV2TTS）”论文的实现，这是一个三阶深度学习框架，允许从几秒钟的音频中创建一个数字化的语音，并使用它来调节训练的“文本转语音”模型，以推广到新的声音．

源码地址：https://github.com/CorentinJ/Real-Time-Voice-Cloning

论文地址：https://arxiv.org/pdf/1806.04558.pdf

模型：

模型分为3个模块构成，encoder模块，systhesis模块，vocoder模块。
encoder模块将说话人的声音转换成speaker embedding，synthesis模块将文本转换成mel-spectrogram，vocoder模块将mel-spectrogram转换成waveform。

接下来演示，安装使用其demo tool box.

安装python 3.7 环境
下载源码 Real-Time-Voice-Cloning-master.zip 及预训练模型pretrained.zip (https://github.com/CorentinJ/Real-Time-Voice-Cloning/wiki/Pretrained-models)
解压预训练模型pretrained，将其中三个模型分别对应拷贝到Real-Time-Voice-Cloning-master下对应的模型中．

在Real-Time-Voice-Cloning-master目录下　pip install -r requirements.txt

这里我使用的是的tf 1.14.0. 原版的 1.15.0 会报cudnn的错误．

还有环境已经安装对应的cudn 10.0 和 cuDNN 7.4

安装pytorch https://pytorch.org/get-started/previous-versions/

pip install torch==1.2.0 torchvision==0.4.0 -f https://download.pytorch.org/whl/torch_stable.html

跑测试脚本python demo_cli.py　或工具箱　python demo_toolbox.py

可能问题：

１　ModuleNotFoundError: No module named '_lzma'

　安装　pip install backports.lzma

在文件 /usr/local/lib/python3.6/(就是你的正使用的目录下)lzma.py line 27行修改如下

try:
    from _lzma import *
    from _lzma import _encode_filter_properties, _decode_filter_properties
except ImportError:
    from backports.lzma import *
    from backports.lzma import _encode_filter_properties, _decode_filter_properties

２　ModuleNotFoundError: No module named '_bz2'

　安装　apt-get install libbz2-dev

还不行的话

Linux下非Root用户解决ImportError: No module named bz2

说白了少个文件，它不一定叫bz2.so，但是大概是lib-dynload文件下的含有bz2的so文件，复制到自己的python的同名文件夹下就好了。

路径全称：.../python37/lib/python3.7/lib-dynload/

我找到的文件叫：_bz2.cpython-35m-x86_64-linux-gnu.so

里面-35m是版本对应的，也必须改，例如：我的python3.7版本就直接重命名-37m。

３　qt.qpa.plugin: Could not load the Qt platform plugin xcb

加入　export QT_DEBUG_PLUGINS=1　

重新运行　python demo_toolbox.py　可知问题在于缺少　libxcb-xinerama.so

所以　sudo apt-get install libxcb-xinerama0　

Lucas23

关注

6
点赞
踩
40

收藏

觉得还不错? 一键收藏
3
评论
Real-Time-Voice-Cloning　安装使用笔记

Real-Time-Voice-Cloning　安装使用Real-Time-Voice-Cloning　是“Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis（SV2TTS）”论文的实现，这是一个三阶深度学习框架，允许从几秒钟的音频中创建一个数字化的语音，并使用它来调节训练的“文本转语音”模型，以推广到新的声音．源码地址：https://github.com/CorentinJ/Re
复制链接

扫一扫