网络环境:VPN
电脑:MAC AIR (Intel显卡,无GPU)
Coqui TTS 是一个基于深度学习的文本到语音(Text-to-Speech,TTS)工具包,支持超过1100种语言的预训练模型,它提供了包括Tacotron、Tacotron2、Glow-TTS、SpeedySpeech等在内的多种文本到语音规范模型,以及MelGAN、Multiband-MelGAN、GAN-TTS、ParallelWaveGAN、WaveGrad、WaveRNN等声码器模型。
Coqui TTS 适用于多种场景,包括智能语音助手、有声读物、智能客服、虚拟人物等。
1、克隆CoquiTTS 的Git 仓库.
git clone https://github.com/coqui-ai/TTS
2、用conda创建coqui虚拟环境
创建:conda create -n coqui python==3.10
激活虚拟环境conda activate coqui
3、安装依赖包
pip install -r requirements.txt
4、索引源设置为清华大学的镜像源
将 pip 的默认 Python 包索引源设置为清华大学的镜像源。国内或其他网络受限的地区,访问官方 PyPI 包下载速度较慢或不稳定时,使用清华、阿里云等镜像源可以显著提升下载速度。
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
5、安装TTS 命令行
pip install TTS
6、安装完查看包里的模型列表
tts --list_models
会罗列包含的模型简介信息列表
7、查看某个具体模型的信息
查看模型tts_models/tr/common-voice/glow-tts的信息命令:
tts --model_info_by_name tts_models/tr/common-voice/glow-tts
模型信息如下:
> model type : tts_models
> language supported : tr
> dataset used : common-voice
> model name : glow-tts
> description : Turkish GlowTTS model using an unknown speaker from the Common-Voice dataset.
> default_vocoder : vocoder_models/tr/common-voice/hifigan
8、文本生成语音命令
tts --text "text for TTS" --out_path ./test_speech.wav
生成的语音文件是test_speech.wav