离线语音识别与语音转写初探

语音离线SDK

能够不联网,或者在初始化过程中仅链接一次网络实现离线资源的调用,翻译准确率,功能集成难易程度,自定义词库功能

科大讯飞

测试结果
  • 离线语音识别
    通过阅读开发文档与下载识别程序运行,发现离线语音识别在数字转换上面,按照说明上面的设置无法实现数字设别倾向于小写:
		// 0 -> 倾向大写数字   1 -> 倾向阿拉伯数字
		mIat.setParameter("nunum","1");
  • 离线语音合成
    离线语音合成能够在离线状态下较好的运行,可以通过设置自定义文本和语音转换为特定语音输出
  • 离线命令词识别
    按照官方提供的语法规则设置语音命令,例如打电话给xx这种
  • 离线唤醒
    通过设置唤醒词:“小x小x”,“你好小x”能够唤起程序,并且支持命令词唤醒

百度云

百度语音识别

  • 语音识别:只有在线版的语音识别功能,不提供离线版本

  • 命令词识别:离线命令识别,通过设置的命令词识别(首次必须联网)

  • 离线唤醒:通过命令词唤醒,同时支持唤醒后执行命令

  • SDK下载
    百度语音sdk

支持语音自训练,训练自己的语音集

在这里插入图片描述

录音环境要求

百度短语音识别(含唤醒)要求安静的环境,真人的正常语速的日常用语,并且不能多个人同时发音。

以下场景讲会导致识别或者唤醒效果变差,错误,甚至没有结果:

吵杂的环境
  1. 有背景音乐,包括扬声器在播放百度合成的语音。
  2. 离麦克风较远的场景应该选择远场语音识别。
  3. 以下场景的录音可能没有正确的识别结果:

音频里有技术专业名称或者用语 (技术专业名称请到自训练平台改善)
4. 音频里是某个专业领域的对话,非日常用语。比如专业会议,动画片等
5. 百度识别和合成sdk相互独立,没有类似“相互抵消“的功能。 建议先收集一定数量的真实环境测试集,按照测试集评估及反馈。

阿里云

  • 支持私有部署
  • 待研究

腾讯云

腾讯语音识别

安卓SDK语音识别仅提供在线语音识别

  • 待研究

有道云

在这里插入图片描述

  • 提供资源包,按照一定量的资源调用次数收费
  • 无语音唤醒

谷歌

  • Android 在线语音识别

微软

国外版本
语音转文本

语音转文本(也称为“语音识别”)可将音频流听录为应用程序、工具或设备可以使用或显示的文本。 结合语言理解 (LUIS) 使用语音转文本可以从听录的语音中派生用户意向,以及处理语音命令。 使用语音翻译通过单个调用将语音输入翻译为另一种语言。 有关详细信息,请参阅语音转文本基础知识。

可在以下平台上使用语音识别 (SR)、短语列表、意向、翻译和本地容器:

  • C++/Windows 和 Linux 和 macOS
  • C#(Framework 和 .NET Core)/Windows 和 UWP 和 Unity 和 Xamarin 和 Linux 和 macOS
  • Java(Jre 和 Android)
  • JavaScript(浏览器和 NodeJS)
  • Python
  • Swift
  • Objective-C
  • Go(仅 SR)
文本转语音

文本转语音(也称为“语音合成”)将文本转换为类似人类语言的合成语音。 输入文本是字符串文字或使用语音合成标记语言 (SSML)。 有关标准语音或神经语音的详细信息,请参阅文本转语音语言和语音支持。

可在以下平台上使用文本转语音 (TTS):

  • C++/Windows 和 Linux
  • C#/Windows 和 UWP 和 Unity
  • Java(Jre 和 Android)
  • Python
  • Swift
  • Objective-C
    TTS REST API 可以在所有其他情况下使用。
语音助手

语音助理使用语音 SDK,让你可为你的应用程序和体验创建自然的、类似于人类的对话界面。 语音 SDK 提供快速、可靠的交互,其中包括单一连接上的语音转文本、文本转语音和对话数据。 你的实现可以使用 Bot Framework 的 Direct Line Speech 通道或集成的“自定义命令”服务来完成任务。 此外,语音助理可以使用在“自定义语音”门户中创建的自定义语音来添加独特的语音输出体验。

以下平台上提供了“语音助理”支持:

  • C++/Windows 和 Linux 和 macOS
  • C#/Windows
  • Java/Windows 和 Linux 和 macOS 和 Android(语音设备 SDK)
  • Go
关键字识别

语音 SDK 支持关键字识别的概念。 “关键字识别”是在语音中识别关键字的操作,后跟一个在听到该关键字时执行的操作。 例如,“你好,Cortana”会激活 Cortana 助理。

“关键字识别”在以下平台上可用:

  • C++/Windows 和 Linux
  • C#/Windows 和 Linux
  • Python/Windows 和 Linux
  • Java/Windows 和 Linux 和 Android(语音设备 SDK)
    关键字识别功能可能适用于任何麦克风类型,不过,官方关键字识别支持目前仅限于 Azure Kinect DK 硬件或语音设备 SDK 中的麦克风阵列
    会议场景
    无论是在单设备对话中还是在多设备对话中,语音 SDK 都非常适用于“会议听录”场景。
对话听录

对话听录实现了实时(和异步)语音识别、说话人识别,并可以将句子归属到每个扬声器(也称为 分割聚类)。 它非常适合用于听录能够区分说话人的面对面会谈场景。

对话听录 在以下平台上可用:

C++/Windows 和 Linux

C#(Framework 和 .NET Core)/Windows 和 UWP 和 Linux
Java/Windows 和 Linux 和 Android(语音设备 SDK)
多设备对话
借助多设备对话,可在一个对话中连接多个设备或客户端以发送基于语音或文本的消息,并轻松支持听录和翻译。

多设备对话 在以下平台上可用:

C++/Windows

C#(Framework 和 .NET Core)/Windows
自定义/代理场景
语音 SDK 可用于“呼叫中心听录”场景,其中会生成电话服务数据。

呼叫中心听录

呼叫中心听录是语音转文本的一个常见应用场景,用于听录可能来自各种系统(例如交互式语音应答 (IVR))的大量电话服务数据。 语音服务的最新语音识别模型非常擅长听录这些电话数据,即使是人类也难以识别的数据。

呼叫中心听录 通过批量语音服务(经由其 REST API)提供,可以在任何情况下使用。

编解码器压缩的音频输入

一些语音 SDK 编程语言支持编解码器压缩的音频输入流。 有关详细信息,请参阅使用压缩的音频输入格式 。

可在以下平台上使用编解码器压缩的音频输入:

  • C++/Linux
  • C#/Linux
  • Java/Linux、Android 和 iOS
  • REST API
    虽然语音 SDK 涵盖了语音服务的许多功能,但对于某些方案,你可能需要使用 REST API。
批量听录

使用批量听录能够以异步方式对大量的数据进行语音转文本听录。 只能通过 REST API 使用批量听录。 除了将语音音频转换为文本,批量语音转文本还允许进行分割聚类和情感分析。

自定义

语音服务在语音转文本、文本转语音和语音翻译方面提供了强大的功能和默认模型。 有时,你可能希望提高基线性能,以便更好地处理你的独特用例。 语音服务有各种各样的无代码自定义工具,这些工具使上述事项变得简单,并使你能够使用基于你自己的数据的自定义模型获得竞争优势。 这些模型将仅供你和你的组织使用。

自定义语音转文本

使用语音转文本在独特的环境中进行识别和听录时,可以创建并训练自定义的声学、语言和发音模型,以解决环境干扰或行业特定的词汇的问题。 可通过自定义语音识别门户来创建和管理无代码自定义语音识别模型。 自定义语音识别模型在发布后可以由语音 SDK 使用。

自定义文本转语音

自定义文本转语音(也称为“自定义语音”)是一组在线工具,用于为你的品牌创建可识别的独一无二的语音。 可通过“自定义语音”门户来创建和管理无代码“自定义语音”模型。 “自定义语音”模型在发布后可以由语音 SDK 使用。

国内版本缺少语音助手,关键字识别等

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值