【VALL-E-01】环境搭建

本文介绍了如何在PyCharm中搭建VALL-E环境,提供基础文本转语音(TTS)功能,并展示了如何使用自定义提示进行语音生成。文章通过对比VALL-E与GPT-SOVITS的效果,展示了其在语音生成领域的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本系列文章系本人知乎账号迁移
本文系个人知乎专栏文章迁移
VALL-E 网络是GPT-SOVITS很重要的参考

知乎专栏地址:
语音生成专栏

相关文章链接:
【VALL-E-01】环境搭建
【VALL-E-02】核心原理

1、环境包使用

在这里插入图片描述
从效果看没有GPT-SOVITS 来的好

环境安装后直接点击“启动软件GPU版”,会打开上述网页

2、源码demo举例

2.1、导入pycharm工程

在 pycharm 中创建工程,并增加相应的包。python解码器也直接用一键包中的环境。如下
在这里插入图片描述

2.2、基础 TTS 举例

from utils.generation import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
from IPython.display import Audio

preload_models()


text = """
测试一段语音生成的效果
"""
audio_array = generate_audio(text)

write_wav("test1.wav", SAMPLE_RATE, audio_array)

Audio(audio_array, rate=SAMPLE_RATE)

2.3、自定义 prompt

from utils.generation import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav


from utils.prompt_making import make_prompt

make_prompt(name="shantianfang", audio_prompt_path="shantianfang.wav")


preload_models()


text = """
测试一段语音生成的效果,看下是否相似
"""

audio_array = generate_audio(text, prompt="shantianfang")

write_wav("test2.wav", SAMPLE_RATE, audio_array)
  1. 需要创建 prompts 和 customs 两个文件夹
  2. prompts 会保存 prompts原始的音频文件,customs 保存特征生成
  3. 这里会使用单田芳的prompts 去生成文本对应的语音,并保存在文件中
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值