开始使用 Amazon Polly 全面推出的生成式引擎和三种语音

09554db18d31bf02defc5770f07172c9.gif

 Amazon Polly 生成式引擎已于近期正式发布,该引擎提供三种语音:说美式英语的 Ruth 和 Matthew ,以及说英式英语的 Amy 。新的生成式引擎使用公开和专有数据、各种语音、语言和风格进行了训练。它以最高精度呈现与上下文相关的韵律、停顿、拼写、方言特性、外来词发音等。

ab2ea022e3a8acb30a1ad44427d9e781.png

Amazon Polly

扫码了解更多

Amazon Polly 是一项机器学习服务,可将文本转换为逼真的语音,称为文字转语音 (TTS) 技术。现在,Amazon Polly 以数十种语言提供优质、自然且类似人声的语音,让您可以选择理想的语音并在多个地区或国家分发支持语音的应用程序。

借助 Amazon Polly ,您可以选择各种语音选项,包括神经语音、长语音和生成式语音,这些语音可实现语音质量的突破性改进,并生成类似人声、表现力强且情感充沛的语音。您可以以 MP3 或 OGG 等标准格式存储语音输出,使用语音合成标记语言 (SSML) 标签调整语速、音高或音量,并以稳定的较短响应时间快速提供逼真的语音和对话式用户体验。

aa214d9a04f3e97bd3f58df6cca8f1c4.png

语音合成标记语言

扫码了解更多

什么是全新生成式引擎?

Amazon Polly 现在支持四种语音引擎:标准语音、神经语音、长语音和生成式语音。

标准 TTS 语音于 2016 年推出,该引擎采用传统的串联合成法。这种方法将录制语音的音素串联起来,生成听起来非常自然的合成语音。然而,语音中不可避免的变化和用于分割波形的技术限制了语音的质量。

336180d6385cd5451d35feac19e24460.png

标准 TTS 语音

扫码了解更多

神经 TTS (NTTS) 语音于 2019 年推出,该引擎使用序列到序列神经网络将音素序列转换为频谱图,然后使用神经声码器将频谱图转换为连续的音频信号。NTTS 生成的类似人声的语音质量甚至比其标准语音还要高。

079139ca295514f8bf73367cb1d8ba11.png

神经 TTS(NTTS)

扫码了解更多

长语音于 2023 年推出,该引擎采用尖端的深度学习 TTS 技术开发,旨在吸引听众关注更长的内容,例如新闻文章、培训材料或营销视频。

d1642693349ea310d454d61e09147711.png

长语音

扫码了解更多

2024 年 2 月,亚马逊科学家推出了一款新的研究型 TTS 模型,名为具有应急功能的大型自适应可流式传输 TTS(BASE) 。借助这项技术,Polly 生成式引擎成功创建了类似人声的合成生成式语音。您可以使用这些语音打造知识渊博的客户助理、虚拟培训师或经验丰富的营销人员形象。

b606306954587e89d18e776a45811025.png

大型自适应可流式传输

 TTS(BASE)

扫码了解更多

以下是新的生成式语音:

您可以根据自己的应用程序和使用案例,从这些语音选项中进行选择。要了解有关生成式引擎的更多信息,请访问如下文档中的生成式语音

5076ec451a004e75e57b9c8b93ee17a9.png

生成式语音

扫码了解更多

开始使用生成式语音

您可以通过Amazon 管理控制台Amazon 命令行界面 (Amazon CLI) Amazon SDK 来使用这些新语音。

8bc4239a03453c625b02879b817f52f7.png

Amazon 管理控制台

扫码了解更多

74420a7915818fbb8b1a1f8fa460496e.png

Amazon 命令行界面

(Amazon CLI)

扫码了解更多

左右滑动查看更多

要开始使用,请访问美国(弗吉尼亚州北部)区域的 Amazon Polly 控制台,然后在左侧窗格中选择文本转语音菜单。如果您选择说美式英语的 Ruth 或 Matthew 的语音,或者说英式英语选择 Amy 的语音,则可以选择生成式引擎。输入您的文本,然后收听或下载生成的语音输出。

132f14ab398a64c6615dbc01af5557a3.png

Amazon Polly 控制台

扫码了解更多

992dad3d6c5736b8b7b1ac3e3affe010.jpeg

使用 CLI ,可以列出使用全新生成式引擎的语音:

$ aws polly describe-voices --output json --region us-east-1 \
| jq -r '.Voices[] | select(.SupportedEngines | index("generative")) | .Name'


Matthew
Amy
Ruth

左右滑动查看完整示意

现在,运行 synthesize-seech CLI 命令,使用生成式引擎的参数和支持的语音 ID 将示例文本合成为音频文件 (hello.mp3) 。

$ aws polly synthesize-speech --output-format mp3 --region us-east-1 \
  --text "Hello.This is my first generative voices!" \
  --voice-id Matthew --engine generative hello.mp3

左右滑动查看完整示意

要了解更多使用开发工具包的代码示例,请访问下方文档中的代码和应用程序示例。您可以使用 Java 和 Python 代码示例、应用程序示例,例如使用 Java 或 Python 的 Web 应用程序,或 iOS 和安卓应用程序。

2fbfba9dee0a795e4135e28c3e716dae.png

代码和应用程序示例

扫码了解更多

63f417a9c2fd82dfb6c3317c83c42d78.png

Java 示例

扫码了解更多

c6159ccdc20fbdf158c10fbc919db98d.png

Python 示例

扫码了解更多

72a49f664dbaae1890f10f674c600416.png

应用程序示例

扫码了解更多

左右滑动查看更多

现已推出

全新的 Amazon Polly 生成式语音现已在美国东部(弗吉尼亚州北部)区域推出。您只需根据转换为语音的文本字符数按使用量付费。

立即在 Amazon Polly 控制台中试用生成式语音,并将反馈发送至 Amazon re:Post for Amazon Polly 或通过您常用的 Amazon Support 联系方式发送。

13d1d19d4288c6eb7d1b6e84a992cc23.png

反馈发送页面

扫码了解更多

点击阅读原文查看博客,获得更详细内容

本篇作者

f40040e14763c5e4a99e35f632afc652.jpeg

Channy Yun

亚马逊云科技

首席开发者布道师

他热衷于帮助开发人员在亚马逊云科技服务上构建现代化应用。作为一位务实的开发者和博客作者,他热爱社区驱动的学习和技术分享,这使开发者汇聚到亚马逊云科技的社区( User Group )。他主要关注的专题包括开源、容器、存储、网络和安全以及物联网。

fd597a423aaf0d0905899da1fb6f063c.gif

星标不迷路,开发更极速!

关注后记得星标「亚马逊云开发者」

听说,点完下面4个按钮

就不会碰到bug了!

2ebceb46ce4a39fe60deca2cefa2ca53.gif

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值