前几日闹的沸沸扬扬的宏颜获水,让百度的AI技术再次被公众所认知,这里的认知不是对AI技术的认知,而是对百度追求AI技术的认知。今天就来说一说百度人工智能领域的语音识别技术。
首先你要在百度AI的开发者平台注册你的账号,可以获取里面免费调用的资源,登陆之后如下:
然后创建新应用用来生成调用相关接口的一些APPID和APPSECRET等,如下:
这里面有Java、Python、PHP等相关的说明和SDK:
创建完应用就可以得到下面的调用信息:
下面以Python调用为例,来演示语音识别:
首先按照模块baidu-aip,相当于Java中的jar包:
写个小demo来实现一下,代码如下:
其中speech.asr(data, 'wav', 16000, {'dev_pid': 1536, })是进行语音识别的,data是音频的二进制数据;'wav'是音频的格式;16000是音频的采样率,也就是16k的音频; {'dev_pid': 1536, }是方言类型或者普通话,参数如下:
这在百度开发者平台上的文档都有说明,hc.wav中是录的一段音频,里面到底说的什么,我们运行一下代码,给它识别出来:
哈哈,完全正确,就是这句发嗲的普通话!成功返回的格式就是如下:
{ "err_no": 0, "err_msg": "success.