【VALL-E-01】环境搭建

Fred-XU

已于 2024-03-24 19:47:34 修改

阅读量561

点赞数 8

文章标签：机器学习人工智能 AI语音 VALL-E

于 2024-03-24 19:43:41 首次发布

本文链接：https://blog.csdn.net/Fredric_2014/article/details/136993120

版权

本文介绍了如何在PyCharm中搭建VALL-E环境，提供基础文本转语音(TTS)功能，并展示了如何使用自定义提示进行语音生成。文章通过对比VALL-E与GPT-SOVITS的效果，展示了其在语音生成领域的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本系列文章系本人知乎账号迁移
本文系个人知乎专栏文章迁移
VALL-E 网络是GPT-SOVITS很重要的参考

知乎专栏地址：
语音生成专栏

相关文章链接：
【VALL-E-01】环境搭建
 【VALL-E-02】核心原理

1、环境包使用

在这里插入图片描述
从效果看没有GPT-SOVITS 来的好

环境安装后直接点击“启动软件GPU版”，会打开上述网页

2、源码demo举例

2.1、导入pycharm工程

在 pycharm 中创建工程，并增加相应的包。python解码器也直接用一键包中的环境。如下
在这里插入图片描述

2.2、基础 TTS 举例

from utils.generation import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
from IPython.display import Audio

preload_models()


text = """
测试一段语音生成的效果
"""
audio_array = generate_audio(text)

write_wav("test1.wav", SAMPLE_RATE, audio_array)

Audio(audio_array, rate=SAMPLE_RATE)

2.3、自定义 prompt

from utils.generation import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav


from utils.prompt_making import make_prompt

make_prompt(name="shantianfang", audio_prompt_path="shantianfang.wav")


preload_models()


text = """
测试一段语音生成的效果,看下是否相似
"""

audio_array = generate_audio(text, prompt="shantianfang")

write_wav("test2.wav", SAMPLE_RATE, audio_array)