开始使用 Amazon Polly 全面推出的生成式引擎和三种语音

亚马逊云开发者

于 2024-06-18 11:00:36 发布

阅读量29

点赞数

文章标签：语音识别人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg4NjU5NDUxNg==&mid=2247569020&idx=2&sn=9bdb4a570d8a6c40a5ec78f4c94c0386&chksm=ceaaaace137ec2448f3e104f9527b7837273853469a049ec3175be2846b956e42768e3713b46&scene=126&sessionid=0

版权

Amazon Polly 生成式引擎已于近期正式发布，该引擎提供三种语音：说美式英语的 Ruth 和 Matthew ，以及说英式英语的 Amy 。新的生成式引擎使用公开和专有数据、各种语音、语言和风格进行了训练。它以最高精度呈现与上下文相关的韵律、停顿、拼写、方言特性、外来词发音等。

Amazon Polly

扫码了解更多

Amazon Polly 是一项机器学习服务，可将文本转换为逼真的语音，称为文字转语音（TTS）技术。现在，Amazon Polly 以数十种语言提供优质、自然且类似人声的语音，让您可以选择理想的语音并在多个地区或国家分发支持语音的应用程序。

借助 Amazon Polly ，您可以选择各种语音选项，包括神经语音、长语音和生成式语音，这些语音可实现语音质量的突破性改进，并生成类似人声、表现力强且情感充沛的语音。您可以以 MP3 或 OGG 等标准格式存储语音输出，使用语音合成标记语言（SSML） 标签调整语速、音高或音量，并以稳定的较短响应时间快速提供逼真的语音和对话式用户体验。

语音合成标记语言

扫码了解更多

什么是全新生成式引擎？

Amazon Polly 现在支持四种语音引擎：标准语音、神经语音、长语音和生成式语音。

标准 TTS 语音于 2016 年推出，该引擎采用传统的串联合成法。这种方法将录制语音的音素串联起来，生成听起来非常自然的合成语音。然而，语音中不可避免的变化和用于分割波形的技术限制了语音的质量。

标准 TTS 语音

扫码了解更多

神经 TTS （NTTS） 语音于 2019 年推出，该引擎使用序列到序列神经网络将音素序列转换为频谱图，然后使用神经声码器将频谱图转换为连续的音频信号。NTTS 生成的类似人声的语音质量甚至比其标准语音还要高。

神经 TTS（NTTS）

扫码了解更多

长语音于 2023 年推出，该引擎采用尖端的深度学习 TTS 技术开发，旨在吸引听众关注更长的内容，例如新闻文章、培训材料或营销视频。

长语音

扫码了解更多

2024 年 2 月，亚马逊科学家推出了一款新的研究型 TTS 模型，名为具有应急功能的大型自适应可流式传输 TTS（BASE） 。借助这项技术，Polly 生成式引擎成功创建了类似人声的合成生成式语音。您可以使用这些语音打造知识渊博的客户助理、虚拟培训师或经验丰富的营销人员形象。

大型自适应可流式传输

TTS（BASE）

扫码了解更多

以下是新的生成式语音：

您可以根据自己的应用程序和使用案例，从这些语音选项中进行选择。要了解有关生成式引擎的更多信息，请访问如下文档中的生成式语音。

生成式语音

扫码了解更多

开始使用生成式语音

您可以通过Amazon 管理控制台、Amazon 命令行界面（Amazon CLI） 或 Amazon SDK 来使用这些新语音。

Amazon 管理控制台

扫码了解更多

Amazon 命令行界面

（Amazon CLI）

扫码了解更多

左右滑动查看更多

要开始使用，请访问美国（弗吉尼亚州北部）区域的 Amazon Polly 控制台，然后在左侧窗格中选择文本转语音菜单。如果您选择说美式英语的 Ruth 或 Matthew 的语音，或者说英式英语选择 Amy 的语音，则可以选择生成式引擎。输入您的文本，然后收听或下载生成的语音输出。

Amazon Polly 控制台

扫码了解更多

使用 CLI ，可以列出使用全新生成式引擎的语音：

$ aws polly describe-voices --output json --region us-east-1 \
| jq -r '.Voices[] | select(.SupportedEngines | index("generative")) | .Name'


Matthew
Amy
Ruth

左右滑动查看完整示意

现在，运行 synthesize-seech CLI 命令，使用生成式引擎的参数和支持的语音 ID 将示例文本合成为音频文件（hello.mp3）。

$ aws polly synthesize-speech --output-format mp3 --region us-east-1 \
  --text "Hello.This is my first generative voices!" \
  --voice-id Matthew --engine generative hello.mp3

左右滑动查看完整示意

要了解更多使用开发工具包的代码示例，请访问下方文档中的代码和应用程序示例。您可以使用 Java 和 Python 代码示例、应用程序示例，例如使用 Java 或 Python 的 Web 应用程序，或 iOS 和安卓应用程序。

代码和应用程序示例

扫码了解更多

Java 示例

扫码了解更多

Python 示例

扫码了解更多

应用程序示例

扫码了解更多

左右滑动查看更多

现已推出

全新的 Amazon Polly 生成式语音现已在美国东部（弗吉尼亚州北部）区域推出。您只需根据转换为语音的文本字符数按使用量付费。

立即在 Amazon Polly 控制台中试用生成式语音，并将反馈发送至 Amazon re:Post for Amazon Polly 或通过您常用的 Amazon Support 联系方式发送。

反馈发送页面

扫码了解更多

点击阅读原文查看博客，获得更详细内容

本篇作者

Channy Yun

亚马逊云科技

首席开发者布道师

他热衷于帮助开发人员在亚马逊云科技服务上构建现代化应用。作为一位务实的开发者和博客作者，他热爱社区驱动的学习和技术分享，这使开发者汇聚到亚马逊云科技的社区（ User Group ）。他主要关注的专题包括开源、容器、存储、网络和安全以及物联网。

星标不迷路，开发更极速！

关注后记得星标「亚马逊云开发者」

听说，点完下面4个按钮

就不会碰到bug了！

亚马逊云开发者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
开始使用 Amazon Polly 全面推出的生成式引擎和三种语音

Amazon Polly生成式引擎已于近期正式发布，该引擎提供三种语音：说美式英语的 Ruth 和 Matthew ，以及说英式英语的 Amy 。新的生成式引擎使用公开和专有数据、各种语音、语言和风格进行了训练。它以最高精度呈现与上下文相关的韵律、停顿、拼写、方言特性、外来词发音等。Amazon Polly扫码了解更多Amazon Polly 是一项机器学习服务，可将文本转换为逼真的语音，称为...
复制链接

扫一扫