由于深度学习和生成建模的最新改进,文本转语音 (TTS) 技术取得了快速发展。领先的两个模型是Bark和Tortoise TTS。两者都利用变压器和扩散模型等尖端技术从文本中合成听起来令人惊叹的自然语音。对于构建语音产品的工程师和创始人来说,考虑到这些新系统的功能,选择正确的 TTS 模型现在是一项复杂的工作。虽然 Bark 和 Tortoise 有相似的最终目标,但它们的基本方法却截然不同。探索音频的新生成前沿,理解这些模型都是成功的关键。
相关链接:
https://github.com/neonbjb/tortoise-tts
https://github.com/suno-ai/bark
Bark
Bark 是由 Suno AI 创建的一种文本到音频生成模型。它利用 Transformer 架构从文本提示生成高质量、逼真的音频。
Bark 的一些关键功能:
1. 它可以合成多种语言的自然、类似人类的语音。这使得它适用于语音助手应用、有声书朗读等。
2. 除了语音外,Bark 还可以生成音乐、音效和其他音频。这种灵活性使得它可以被用于生产视频、游戏或交互式应用的定制化音频。
3. 该模型支持生成笑声、叹息等非言语声音,使得语音更加自然和类似人声。我认为这些功能非常引人注目,这些不完美之处使得语音听起来更加真实。在这里查看示例(向下滚动到 "pizza.webm")。
4. Bark 允许通过文本提示来控制音调、音高、说话者身份等属性。这种控制水平对于开发独特的语音角色非常有用。
5. 它不需要额外的数据标注,只需文本转录。模型直接从文本-音频对中学习。
总之,Bark 是一种强大的生成模型,能够完全从文本生成高质量的语音和多样化的音频。它的灵活性使得它可以应用于从语音助手到音频制作工具等一系列潜在用途。
Bark 的输入和输出
以下是Suno 在 Replicate.com 上使用API 规范页面中的数据实现的 Bark 模型的输入和输出的详细信息。
输入:
- prompt(字符串):为生成提供初始上下文的输入提示。默认值是“你好,我的名字是 Suno。而且,呃 - 我喜欢披萨。[笑]但我也有其他兴趣,例如玩井字游戏。”
- history_prompt(字符串):音频克隆历史记录的选择。这允许您从各种语言的预定义说话者 ID 列表中进行选择(例如 en_speaker_0、es_speaker_1、fr_speaker_2 等)。此历史记录有助于模型了解生成音频的语音风格。
- custom_history_prompt(文件):如果提供,此 .npz 文件将覆盖以前的history_prompt设置。您可以为音频克隆提供您自己的历史选择。
- text_temp(数字):文本生成过程的生成温度。较高的值(例如,1.0)使输出更加多样化,而较低的值(例如,0.0)使其更加保守。默认值为 0.7。
- waveform_temp(数字):波形生成过程的生成温度。与 类似text_temp,该参数影响音频生成的多样性。默认值为 0.7。
- output_full(boolean):如果设置为true,模型将完整生成作为 .npz 文件返回,该文件可以用作后代的历史提示。
输出:
模型的输出结构由以下 JSON 架构描述:
{
"type": "object",
"title": "ModelOutput",
"required": [
"audio_out"
],
"properties": {
"audio_out": {
"type": "string",
"title": "Audio Out",
"format": "uri"
},
"prompt_npz": {
"type": "string",
"title": "Prompt Npz",
"format": "uri"
}
}
}
您可能会发现一些有用的其他详细信息:
- audio_out(字符串):指向生成的音频文件的 URI。这是模型的主要输出,包含生成的文本提示的音频表示。
- prompt_npz(字符串):指向 .npz 文件的 URI,该文件表示用于生成音频的提示。这对于跟踪导致音频生成的输入上下文非常有用。
总之,Bark 模型采用输入提示、历史选择和生成温度设置来产生音频输出。输出包括指向生成的音频文件的链接和指向表示提示的 .npz 文件的链接。
Tortoise
Tortoise TTS 是一个专为极其逼真和自然 sounding 的语音合成优化的文本到语音模型。它由 James Betker 创建。
Tortoise TTS 的关键功能:
- 它擅长使用目标说话者的短音频样本来克隆声音。这使得轻松生成许多不同的声音成为可能。
- 合成声音的质量非常高,几乎无法与人类发声者区分。这使得 Tortoise 非常适合用于有声书朗读等场景。
- Tortoise 支持通过引导文本对语音特征(如音调、情感、节奏等)进行细粒度控制。这种灵活性有助于赋予声音生命力。
- 该模型通过训练用于语音压缩的自动编码器,有效地利用了较小的数据集。与其他 TTS 模型相比,所需数据较少。
- Tortoise 专注于语音合成。虽然它在音乐或音效方面的灵活性较差,但在语音方面提供了无与伦比的真实感。
总之,Tortoise TTS 是一款非常高保真的文本到语音模型,专为克隆声音和讲述长篇语音内容(如书籍或文章)而优化。它提供的语音合成质量和控制使 Tortoise 适用于从虚拟助手到有声书制作等一系列应用。您甚至可以使用 Tortoise 创建诸如贝拉克·奥巴马(Barack Obama)、唐纳德·特朗普(Donald Trump)、沃尔特·怀特(Walter White)、托尼·斯塔克(Tony Stark)等名人的声音克隆!