离线语音识别与语音转写初探

最新推荐文章于 2025-02-21 15:01:29 发布

Three_ST

最新推荐文章于 2025-02-21 15:01:29 发布

阅读量3.5k

点赞数 1

分类专栏： Android 文章标签：人工智能语音识别应用对比自然语言处理

本文链接：https://blog.csdn.net/qq_25482087/article/details/117898673

版权

Android 专栏收录该内容

6 篇文章

订阅专栏

本文探讨了科大讯飞离线语音SDK的离线语音识别、合成、唤醒与命令词识别功能，以及各云服务商的对比。特别关注了百度云对录音环境的要求，包括安静环境和避免背景噪音。同时，介绍了SDK的自定义词库、录音编解码器和多场景应用如会议听录、呼叫中心等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

语音离线SDK

能够不联网，或者在初始化过程中仅链接一次网络实现离线资源的调用，翻译准确率，功能集成难易程度，自定义词库功能

科大讯飞

测试结果

离线语音识别
通过阅读开发文档与下载识别程序运行，发现离线语音识别在数字转换上面，按照说明上面的设置无法实现数字设别倾向于小写：

		// 0 -> 倾向大写数字   1 -> 倾向阿拉伯数字
		mIat.setParameter("nunum","1");

离线语音合成
离线语音合成能够在离线状态下较好的运行，可以通过设置自定义文本和语音转换为特定语音输出
离线命令词识别
按照官方提供的语法规则设置语音命令，例如打电话给xx这种
离线唤醒
通过设置唤醒词：“小x小x”，“你好小x”能够唤起程序，并且支持命令词唤醒

百度云

百度语音识别

语音识别：只有在线版的语音识别功能，不提供离线版本
命令词识别：离线命令识别，通过设置的命令词识别（首次必须联网）
离线唤醒：通过命令词唤醒，同时支持唤醒后执行命令
SDK下载

支持语音自训练，训练自己的语音集

在这里插入图片描述

录音环境要求

百度短语音识别（含唤醒）要求安静的环境，真人的正常语速的日常用语，并且不能多个人同时发音。

以下场景讲会导致识别或者唤醒效果变差，错误，甚至没有结果：

吵杂的环境

有背景音乐，包括扬声器在播放百度合成的语音。
离麦克风较远的场景应该选择远场语音识别。
以下场景的录音可能没有正确的识别结果：

音频里有技术专业名称或者用语（技术专业名称请到自训练平台改善）
4. 音频里是某个专业领域的对话，非日常用语。比如专业会议，动画片等
5. 百度识别和合成sdk相互独立，没有类似“相互抵消“的功能。建议先收集一定数量的真实环境测试集，按照测试集评估及反馈。

阿里云

支持私有部署
待研究

腾讯云

腾讯语音识别

安卓SDK语音识别仅提供在线语音识别

待研究

有道云

在这里插入图片描述

提供资源包，按照一定量的资源调用次数收费
无语音唤醒

谷歌

Android 在线语音识别

微软

国外版本

语音转文本

语音转文本（也称为“语音识别”）可将音频流听录为应用程序、工具或设备可以使用或显示的文本。结合语言理解 (LUIS) 使用语音转文本可以从听录的语音中派生用户意向，以及处理语音命令。使用语音翻译通过单个调用将语音输入翻译为另一种语言。有关详细信息，请参阅语音转文本基础知识。

可在以下平台上使用语音识别 (SR)、短语列表、意向、翻译和本地容器：

C++/Windows 和 Linux 和 macOS
C#（Framework 和 .NET Core）/Windows 和 UWP 和 Unity 和 Xamarin 和 Linux 和 macOS
Java（Jre 和 Android）
JavaScript（浏览器和 NodeJS）
Python
Swift
Objective-C
Go（仅 SR）

文本转语音

文本转语音（也称为“语音合成”）将文本转换为类似人类语言的合成语音。输入文本是字符串文字或使用语音合成标记语言 (SSML)。有关标准语音或神经语音的详细信息，请参阅文本转语音语言和语音支持。

可在以下平台上使用文本转语音 (TTS)：

C++/Windows 和 Linux
C#/Windows 和 UWP 和 Unity
Java（Jre 和 Android）
Python
Swift
Objective-C
TTS REST API 可以在所有其他情况下使用。

语音助手

语音助理使用语音 SDK，让你可为你的应用程序和体验创建自然的、类似于人类的对话界面。语音 SDK 提供快速、可靠的交互，其中包括单一连接上的语音转文本、文本转语音和对话数据。你的实现可以使用 Bot Framework 的 Direct Line Speech 通道或集成的“自定义命令”服务来完成任务。此外，语音助理可以使用在“自定义语音”门户中创建的自定义语音来添加独特的语音输出体验。

以下平台上提供了“语音助理”支持：

C++/Windows 和 Linux 和 macOS
C#/Windows
Java/Windows 和 Linux 和 macOS 和 Android（语音设备 SDK）
Go

关键字识别

语音 SDK 支持关键字识别的概念。 “关键字识别”是在语音中识别关键字的操作，后跟一个在听到该关键字时执行的操作。例如，“你好，Cortana”会激活 Cortana 助理。

“关键字识别”在以下平台上可用：

C++/Windows 和 Linux
C#/Windows 和 Linux
Python/Windows 和 Linux
Java/Windows 和 Linux 和 Android（语音设备 SDK）
关键字识别功能可能适用于任何麦克风类型，不过，官方关键字识别支持目前仅限于 Azure Kinect DK 硬件或语音设备 SDK 中的麦克风阵列
会议场景
无论是在单设备对话中还是在多设备对话中，语音 SDK 都非常适用于“会议听录”场景。