Text-To-Speech (TTS) 模型应用

厉力文武

已于 2024-09-19 13:19:45 修改

阅读量1.3k

点赞数 9

文章标签：语音识别人工智能

于 2024-04-19 10:58:08 首次发布

本文链接：https://blog.csdn.net/weixin_40154354/article/details/137952671

版权

本文介绍了Text-To-Speech（TTS）技术，它将文本转化为语音，广泛应用于辅助阅读、语音助手等领域。文章详细阐述了TTS系统的组成部分，并通过引入相关库和模块，演示了如何创建和执行一个文本转语音的处理管道，生成合成语音。同时，讨论了TTS技术的潜在改进点，如叠词发音和语音语调。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Text-To-Speech（TTS），是一个文本合成语音技术，它将文本信息转换为口语，使计算机生成的语音听起来无限接近人类说话的声音。它的应用场景非常广，包括辅助阅读、语音助手、导航系统、教育工具、信息播报，消息通知等等。系统主要包含以下组件：文本分析器、发音引擎、声音合成器、声音模型和语音库等。语音合成技术发展到现在已经非常成熟了，但在极个别情况下还有需要完善的地方，比如叠词的发音、中外文混杂，以及语音语调方面等。

首先导入依赖库，mediainfo 用于获取音频文件的元数据信息，如文件格式、采样率、声道数、持续时间等；modelscope 模块的 OutputKeys 定义了模型输出结果中关键数据字段名称的枚举类或常量集合；modelscope 模块的 pipeline 指代一种将多个处理步骤（如数据预处理、模型推理、后处理等）组合在一起，形成一个端到端工作流；modelscope 模块的 Tasks 定义了预设任务类型的枚举类和常量，在机器学习和深度学习过程中，定义了模型所要解决的具体问题或应用领域，如分类、回归、文本摘要、文本生成、语音识别、语音合成等。

from pydub.utils import mediainfo
from modelscope.outputs import OutputKeys
from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks

接下来创建了一个基于 modelscope.pipelines 模块的处理管道实例，并将其赋值给变量pipe。创建管道时指定了两个参数，task 参数设置从 modelscope.utils.constant.Tasks 中导入常量 Tasks.text_to_speech，代表当前管道需要执行的任务类型为文本转语音，model 参数表示用于执行该任务的模型文件或模型配置的加载路径。

pipe = pipeline(task=Tasks.text_to_speech, model=model_tts_path)

然后调用并执行任务，input 参数代表输入的文本，及待合成的文本信息，voice 参数为合成语音时的特征，如发音人风格、语速、音高等，具体效果取决于模型和项目的实现，可能是字符串、数字、字典或其他复合类型，用来描述合成语音所需的声音特性。执行完成后，管道会按照之前设定的任务类型和关联模型，对输入文本和语音参数进行处理，生成合成的语音数据及可能的其他附属相关信息，结果被存储在变量 output 中。

output = pipe(input='今天是个好日子', voice='zhizhe_emo')

最后创建了一个临时文件，并在代码块结束后自动关闭文件。delete=False 参数表示在退出with 代码块后不立即删除该临时文件；write 方法从 output 字典中取出 OutputKeys.OUTPUT_WAV 值；flush 方法强制将缓冲区中的数据立即写入磁盘，避免因程序异常终止或后续操作提前导致数据丢失；seek 方法将文件指针重置到文件起始位置，便于后续代码读取临时文件。

with tempfile.NamedTemporaryFile(delete=False) as temp_file:
    temp_file.write(output[OutputKeys.OUTPUT_WAV])
    temp_file.flush()
    temp_file.seek(0)

在这里我采用 mediainfo 函数来获取临时文件 temp_file 的音频元数据信息，如文件格式、采样率、声道数、音频时长等；duration_seconds 变量为合成音频的长度。

audio_info = mediainfo(temp_file.name)
duration_seconds = audio_info['duration']

总结一下，Text-To-Speech 是目前比较经济实惠的文生语音解决方案，核心代码就那么几行，效果完全能够满足绝大部分的业务场景，用吧。