TTS/发音
ASR/语义识别
WakeUp/唤醒
1.在线语音合成Andriod SDK
简介
本文档是百度在线语音合成Andriod SDK的用户指南(无离线合成功能,需要离线合成请使用离线合成SDK)。
在线语音合成SDK的策略是边下载边播放。区别于Rest Api一次性下载整个录音文件。
语言
目前只有中英文混合这一种语言,优先中文发音。
示例:
- ” I bought 3 books” 发音 “three”;
- “我们买了 3 books” 发音“三”
标注发音
该功能适用于多音字或特殊名词的发音设置,仅在线合成适用。
如: 重(chong2)报集团, “重”发音 chong第二声
在线和离线判别
在线合成SDK仅支持纯在线模式,如需使用离线模式请选使用离线合成sdk
纯在线模式 : WIFI 4G 3G 2G 都会尝试连接百度服务器。如果百度服务器失败,那么合成失败。
建议使用场景: 使用WIFI或者网络稳定的场所场景中,若存在网络信号不稳定(频繁断网)的情况,您可以使用百度提供的离线合成sdk。
发音
在线时支持9种发音
- 普通音库:普通女声 普通男声 特别男声 情感男声<度逍遥> 情感儿童声<度丫丫>
- 精品音库: 度小宇 度小美 度逍遥 度丫丫
合成效果
通过对PARAM_SPEAKER(发音人)、PARAM_PITCH(音调)、PARAM_VOLUME(音量)和PARAM_SPEED(语速)参数的调整,可以获得不同的发声效果,更好满足您业务场景中的播报需求。 如音调越高,声音听起来会显得越年轻。
合成和播放
synthesize 方法直接合成。不播放。 开发者可以通过onSynthesizeDataArrived 获取音频数据,自行处理。
speak 方法先合成为音频,之后立即播放。等同调用 synthesize方法,再调用系统播放器。
在SDK内部中有队列,可以不断调用synthesize或者speak方法,将合成的文本添加到队列中。
其它事项
- 每次合成的文本不超过120 GBK字节,即60个汉字或者字母数字。
- 合成的耗时同文本长度成正比。对合成速度敏感的话,请自行按照标点切分成短句。
- 多音字可以通过标注自行定义发音。格式如:重(chong2)报集团。
2.语音唤醒
概述
语音唤醒是打包在语音识别离在线融合SDK(Android/iOS)中的子功能。
名词解释
唤醒词: 唤醒词即识别“关键词”。唤醒词是本地功能,正常使用时无需联网。唤醒词共分为2大类,预定义唤醒词和自定义唤醒词
预定义唤醒词 预定义唤醒词是指已经确认语音唤醒效果的词汇,在唤醒词评估工具中均可导出,目前,已经支持的唤醒词有:
- 相机类:拍照、茄子
- 音乐类:增大音量、减小音量、播放、停止、暂停、上一首、下一首
- 电灯类:打开电灯、关闭电灯、增大亮度、减小亮度
- 手电筒类:打开手电筒、关闭手电筒
自定义唤醒词 在 http://ai.baidu.com/tech/speech/wake 页面进行唤醒词评估,自定义唤醒词可支持导出4星、5星的唤醒词
使用步骤
唤醒使用步骤如下:
- SDK下载:选择下载语音识别 [离在线融合SDK(Android/iOS)],测试DEMO中的唤醒词功能
- 唤醒词导出:在 [语音唤醒]页面下载唤醒词WakeUp.bin文件,详见下方唤醒词下载
- 唤醒词使用:替换DEMO中的同名文件,详见下方唤醒词在SDK中的使用
3.短语音识别极速版
产品概述
将60秒以内的完整音频文件识别为文字,专有GPU服务集群,识别响应速度较标准版API提升2倍及识别准确率提升15%。适用于近场短语音交互,如手机语音搜索、聊天输入等场景。 支持上传完整的录音文件,录音文件时长不超过60秒。实时返回识别结果
产品价格
短语音识别极速版支持按调用量后付费及次数包。按用量后付费按每月累计调用量阶梯计价。次数包为预付费,一年内有效,价格更优惠。详情见产品定价文档
语音识别模型
百度短语音极速版提供极速版输入法模型1个模型(暂时不支持其他方言及英语)。识别速度更快,识别效果更好。支持智能标点,可以识别简单的常用英语语句。
可通过设置dev_pid参数选择模型。点击查看详细参数
语音识别模型自训练
如果您在应用语音识别能力时,有行业专有名词,如金融、医疗、餐饮、地产、制造等行业术语,无法准确识别。推荐使用语音自训练平台,可以上传词汇和长文本进行模型训练,以及根据业务发展迭代不断训练。
调用短语音识别极速版API,添加训练模型ID即可生效。
调用流程
- 鉴权认证:使用appKey secretKey 访问 https://openapi.baidu.com 换取 token ,详细见[鉴权认证机制]
- 确认请求方式:选择一种HTTP POST 请求格式,参见下一节 请求方式
- 填写参数:详细见 参数说明
适用范围及demo下载
任意操作系统,任意编程语言,只要可以对百度语音服务器发起http请求的,均可以使用本接口。
示例Demo代码见: https://github.com/Baidu-AIP/speech-demo
浏览器由于无法跨域请求百度语音服务器的域名,因此无法直接使用本接口。需从服务器端发起调用。
语音识别极速版调用地址:https://vop.baidu.com/pro_api
语音格式
格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、amr(压缩格式)、m4a(压缩格式,仅支持极速版模型,m4a格式输入适用于微信小程序的录音文件,详见格式说明)。推荐pcm 采样率 :16000 固定值。 编码:16bit 位深的单声道。
百度服务端会将非pcm格式,转为pcm格式,因此使用wav、amr、m4a会有额外的转换耗时。
音频文件格式转换可以使用音频软件进行。批量音频格式转换,可使用开源ffmpeg格式转换工具文档【点击查看音频文件转码工具文档】。
超过60秒音频可使用VAD切分工具进行切分。【点击查看VAD切分工具文档】
小程序m4a格式设置
- 参数format改为m4a
- 仅支持单声道
- 采样率仅支持16000
- CBR bitrates 24000-96000,推荐48000
- 仅支持AAC-LC, 不支持 例如HE-AAC ,LD,ELD等
- brand 仅支持 mp42:0, mini Version 0 ,不支持 M4A
- 微信小程序录音设置,见微信官方文档
微信小程序录音参数,请重点关注并设置以下必填字段:
属性 | 类型 | 默认值 | 必填 | 说明 |
---|---|---|---|---|
duration | number | 60000 | 否 | 百度语音restapi最大支持 60s,即这个值不能超过60000 |
sampleRate | number | 16000 | 是 | 必须设为 16000 |
numberOfChannels | number | 1 | 是 | 比如设为1,单声道 |
encodeBitRate | number | 48000 | 否 | 默认值即可,建议48000,可设为24000-96000。该值越大的话,生成文件越大 |
format | string | aac | 否 | 默认值即可,只支持aac,不支持mp3 |
5.创建ai应用