创建百度Ai认识AI语音领域名词 4-2

最新推荐文章于 2023-06-29 08:56:27 发布

IT 傻白甜

最新推荐文章于 2023-06-29 08:56:27 发布

阅读量566

点赞数

分类专栏： kotlin Android AI语音项目文章标签：语音识别 android android studio

本文链接：https://blog.csdn.net/qq_16555461/article/details/113848437

版权

kotlin Android AI语音项目专栏收录该内容

10 篇文章 0 订阅

订阅专栏

TTS/发音

ASR/语义识别

WakeUp/唤醒

百度AI/https://ai.baidu.com/

1.在线语音合成Andriod SDK

简介

本文档是百度在线语音合成Andriod SDK的用户指南（无离线合成功能，需要离线合成请使用离线合成SDK）。

在线合成SDK下载

在线语音合成SDK的策略是边下载边播放。区别于Rest Api一次性下载整个录音文件。

语言

目前只有中英文混合这一种语言，优先中文发音。

示例：

” I bought 3 books” 发音 “three”;
“我们买了 3 books” 发音“三”

标注发音

该功能适用于多音字或特殊名词的发音设置，仅在线合成适用。

如：重(chong2)报集团, “重”发音 chong第二声

在线和离线判别

在线合成SDK仅支持纯在线模式，如需使用离线模式请选使用离线合成sdk

纯在线模式 ： WIFI 4G 3G 2G 都会尝试连接百度服务器。如果百度服务器失败，那么合成失败。

建议使用场景：使用WIFI或者网络稳定的场所场景中，若存在网络信号不稳定(频繁断网）的情况，您可以使用百度提供的离线合成sdk。

发音

在线时支持9种发音

普通音库：普通女声普通男声特别男声情感男声<度逍遥> 情感儿童声<度丫丫>
精品音库： 度小宇度小美度逍遥度丫丫

合成效果

通过对PARAM_SPEAKER（发音人）、PARAM_PITCH（音调）、PARAM_VOLUME（音量）和PARAM_SPEED（语速）参数的调整，可以获得不同的发声效果，更好满足您业务场景中的播报需求。如音调越高，声音听起来会显得越年轻。

合成和播放

synthesize 方法直接合成。不播放。开发者可以通过onSynthesizeDataArrived 获取音频数据，自行处理。

speak 方法先合成为音频，之后立即播放。等同调用 synthesize方法，再调用系统播放器。

在SDK内部中有队列，可以不断调用synthesize或者speak方法，将合成的文本添加到队列中。

其它事项

每次合成的文本不超过120 GBK字节，即60个汉字或者字母数字。
合成的耗时同文本长度成正比。对合成速度敏感的话，请自行按照标点切分成短句。
多音字可以通过标注自行定义发音。格式如：重(chong2)报集团。

2.语音唤醒

概述

语音唤醒是打包在语音识别离在线融合SDK（Android/iOS）中的子功能。

名词解释

唤醒词：唤醒词即识别“关键词”。唤醒词是本地功能，正常使用时无需联网。唤醒词共分为2大类，预定义唤醒词和自定义唤醒词

预定义唤醒词 预定义唤醒词是指已经确认语音唤醒效果的词汇，在唤醒词评估工具中均可导出，目前，已经支持的唤醒词有：

相机类：拍照、茄子
音乐类：增大音量、减小音量、播放、停止、暂停、上一首、下一首
电灯类：打开电灯、关闭电灯、增大亮度、减小亮度
手电筒类：打开手电筒、关闭手电筒

自定义唤醒词 在 http://ai.baidu.com/tech/speech/wake 页面进行唤醒词评估，自定义唤醒词可支持导出4星、5星的唤醒词

使用步骤

唤醒使用步骤如下：

SDK下载：选择下载语音识别 [离在线融合SDK（Android/iOS）]，测试DEMO中的唤醒词功能
唤醒词导出：在 [语音唤醒]页面下载唤醒词WakeUp.bin文件，详见下方唤醒词下载
唤醒词使用：替换DEMO中的同名文件，详见下方唤醒词在SDK中的使用

3.短语音识别极速版

产品概述

将60秒以内的完整音频文件识别为文字，专有GPU服务集群，识别响应速度较标准版API提升2倍及识别准确率提升15%。适用于近场短语音交互，如手机语音搜索、聊天输入等场景。 支持上传完整的录音文件，录音文件时长不超过60秒。实时返回识别结果

产品价格

短语音识别极速版支持按调用量后付费及次数包。按用量后付费按每月累计调用量阶梯计价。次数包为预付费，一年内有效，价格更优惠。详情见产品定价文档

语音识别模型

百度短语音极速版提供极速版输入法模型1个模型（暂时不支持其他方言及英语）。识别速度更快，识别效果更好。支持智能标点，可以识别简单的常用英语语句。

可通过设置dev_pid参数选择模型。点击查看详细参数

语音识别模型自训练

如果您在应用语音识别能力时，有行业专有名词，如金融、医疗、餐饮、地产、制造等行业术语，无法准确识别。推荐使用语音自训练平台，可以上传词汇和长文本进行模型训练，以及根据业务发展迭代不断训练。

平台使用手册

调用短语音识别极速版API，添加训练模型ID即可生效。

调用流程

鉴权认证：使用appKey secretKey 访问 https://openapi.baidu.com 换取 token ，详细见[鉴权认证机制]
确认请求方式：选择一种HTTP POST 请求格式，参见下一节请求方式
填写参数：详细见参数说明

适用范围及demo下载

任意操作系统，任意编程语言，只要可以对百度语音服务器发起http请求的，均可以使用本接口。

示例Demo代码见： https://github.com/Baidu-AIP/speech-demo

浏览器由于无法跨域请求百度语音服务器的域名，因此无法直接使用本接口。需从服务器端发起调用。

语音识别极速版调用地址：https://vop.baidu.com/pro_api

语音格式

格式支持：pcm（不压缩）、wav（不压缩，pcm编码）、amr（压缩格式）、m4a（压缩格式，仅支持极速版模型，m4a格式输入适用于微信小程序的录音文件，详见格式说明）。推荐pcm 采样率：16000 固定值。编码：16bit 位深的单声道。

百度服务端会将非pcm格式，转为pcm格式，因此使用wav、amr、m4a会有额外的转换耗时。

音频文件格式转换可以使用音频软件进行。批量音频格式转换，可使用开源ffmpeg格式转换工具文档【点击查看音频文件转码工具文档】。

超过60秒音频可使用VAD切分工具进行切分。【点击查看VAD切分工具文档】

小程序m4a格式设置

参数format改为m4a

仅支持单声道
采样率仅支持16000
CBR bitrates 24000-96000，推荐48000
仅支持AAC-LC，不支持例如HE-AAC ，LD，ELD等
brand 仅支持 mp42:0, mini Version 0 ,不支持 M4A

微信小程序录音设置，见微信官方文档

微信小程序录音参数，请重点关注并设置以下必填字段：

属性	类型	默认值	必填	说明
duration	number	60000	否	百度语音restapi最大支持 60s，即这个值不能超过60000
sampleRate	number	16000	是	必须设为 16000
numberOfChannels	number	1	是	比如设为1，单声道
encodeBitRate	number	48000	否	默认值即可，建议48000，可设为24000-96000。该值越大的话，生成文件越大
format	string	aac	否	默认值即可，只支持aac，不支持mp3