谷歌Text-to-Speech普遍可用，同时发布Speech-to-Text更新

最新推荐文章于 2024-06-25 01:01:00 发布

糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖

最新推荐文章于 2024-06-25 01:01:00 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/cpongo4/article/details/89117237

版权

谷歌宣布了Cloud Text-to-Speech普遍可用，允许开发人员在设备或应用程序中添加自然发声的语音。此外，谷歌还发布了Cloud Speech-to-Text的一组更新，增加了更多功能和增强的可用性和可靠性。

Cloud Text-to-Speech最早于今年3月发布，之后客户要求为WaveNet语音提供更多语言支持——这是一种通过模仿人类声音让语音听起来更自然的技术。谷歌预计将增加17种新的WaveNet语音，让用户可以使用更多语言构建应用程序。目前，Cloud Text-to-Speech支持14种语言和变体，共有56种语音，包括30种标准语音和26种WaveNet语音。

谷歌Cloud Text-to-Speech利用了多种技术，包括WaveNet——一种用于生成原始音频波形的深度神经网络，能够生成更好听、更逼真的语音。此外，谷歌还提供与Text-to-Speech转换相配套的音频配置文件（测试版），让用户能够针对不同类型硬件的回放进行优化。谷歌在发布公告中表示：

\
你现在可以指定音频是通过电话线、耳机还是扬声器进行播放，我们将为回放提供音频优化。例如，如果你的应用程序产生的音频主要通过耳机收听，就可以通过专为耳机优化的Cloud Text-to-Speech API创建合成语音。
\

来源：https://cloud.google.com/blog/products/ai-machine-learning/announcing-updates-to-cloud-speech-to-text-and-general-availability-of-cloud-text-to-speech

在7月份的Google Cloud Next大会上，谷歌发布了Cloud Speech-to-Text的新功能，现在可以在测试服务中使用这些功能。开发人员可以通过语言自动检测使用多种语言，通过说话者分类（diarization）和多通道识别分离不同的说话者，以及更高的词级置信度来构建应用程序。

谷歌Text-to-Speech主要是一种转录服务，通过解析声音来记录人类所说的内容。此外，这项服务可以正确地在文本输出中添加逗号和句点等标点符号。现在，谷歌将通过新的多声道识别功能进一步发展该服务，用于转录来自多个发言者的音频，包括使用Cloud Natural Language进行情感分析。当无法通过通道分离音频样本时，开发人员可以使用说话者分类的功能，输入说话者数量作为API参数——并且通过机器学习，如发布公告所述：

\
Cloud Speech-to-Text将使用说话者数量来标记每个单词。随着接受到越来越多的数据，附加到每个单词的说话者标签不断被更新，Cloud Speech-to-Text在识别说话者以及他们的讲话内容方面将会变得越来越准确。
\

来源：https://cloud.google.com/blog/products/ai-machine-learning/announcing-updates-to-cloud-speech-to-text-and-general-availability-of-cloud-text-to-speech

除了说话者分类和多声道识别功能外，Cloud Speech-to-Text还可以接受多种语言并进行自动检测。开发人员可以使用该功能的语音和命令功能，在每个查询中将最多四个语言代码发送到Cloud Speech-to-Text。随后，API将自动确定目标语言，并返回目标语言的转录文本。另一个功能是单词级置信度分数，开发人员可以突出显示特定单词，然后在必要的时候根据置信度分数向用户显示并让用户重复这些单词。

谷歌Text-to-Speech服务并不是公共云中唯一可用的服务，亚马逊在AWS上提供了Polly，可以列出54种可用语音，而微软也提供了他们的Text to Speech服务预览版，提供45种语言的75种语音。此外，与谷歌Speech-to-Text将与AWS的Amazon Transcribe展开竞争，这是一项功能丰富且通用的服务。而微软的Speech to Text服务也仍然只提供了预览版。除了它们之间的竞争，这些服务的用户也表现出了一些喜好，并对它们展开了讨论。在Hacker News的一个有关谷歌文本和语音服务的帖子中，一位用户表示：

\
几乎所有主要的云服务提供商都以一定的价格提供文本转语音服务，那为什么还要构建自己的系统呢，除非云服务提供商的定价占了总成本很大的比例。为什么不继续使用谷歌的这项服务？我们可以等到谷歌把价格提高了再决定后续该怎么做。毕竟，它只是一个API调用而已。
\

Mike Wheatley最近在Silicon Angle的一篇文章中称，谷歌将通过云端文本转语音服务瞄准三个主要市场：

\
1. 呼叫中心的语音响应系统，Cloud Text-to-Speech可以为之提供实时的自然语言对话。
\\
2. 物联网领域，特别是汽车信息娱乐系统、电视和机器人等产品，让这些类型的设备能够与3. 用户交流。播客和有声读物等应用程序，可将文本转换为语音。
\

开发人员可以尝试使用Speech-to-Text和Cloud Text-to-Speech服务。有关Speech-to-Text服务的定价信息，请参阅定价页面。Text-to-Speech服务的定价细节也可在相应的定价页面上找到。

查看英文原文：Google Announces General Availability of Cloud Text-to-Speech and Updates to Cloud Speech-to-Text

糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖糖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
谷歌Text-to-Speech普遍可用，同时发布Speech-to-Text更新

谷歌宣布了Cloud Text-to-Speech普遍可用，允许开发人员在设备或应用程序中添加自然发声的语音。此外，谷歌还发布了Cloud Speech-to-Text的一组更新，增加了更多功能和增强的可用性和可靠性。\\Cloud Text-to-Speech最早于今年3月发布，之后客户要求为WaveNet语音提供更多语言支持——这是一种通过模仿人类声音让语音听起来更自然的技术。谷歌预计将增加1...
复制链接

扫一扫