最近搜罗了一些在线语音识别的服务平台,比如:讯飞语音、百度语音、Google Speech、Bing Speech. 找这些平台主要是为了给一些没有文字稿的德文音频生成自动字幕。Google和Bing都支持德文。我先试用的是Google,网上教程比较多,不多说了,这里就放一个传送门:
https://github.com/gillesdemey/google-speech-v2/
但是上个Google实在不容易。因而我研究了一下Bing。百度了一下,发现还没什么人写过相关的教程。其实方法也很简单。先贴官网文档的地址:
https://www.microsoft.com/cognitive-services/en-us/speech-api/documentation/api-reference-rest/bingvoicerecognition
官方的文档写的还是很具体的,会用的应该一看就懂。我就在这里做个简单的Tutorial。
0 简述
简单的说就是利用REST API,通过Http接口发起语音认知请求。
具体步骤:获得授权码-->POST语音识别请求-->获得认知结果
免费的Bing Speech服务支持5000次/月的识别请求,单次请求的语音长度不超过10秒。显然,这更适合语音命令识别。不过这里我强行拿来给一般音频文件加字幕。
本文需要用到的工具(cURL和SoX):
链接:https://pan.baidu.com/s/1slRLsYD 密码:mf5t
建议解压后,把两个程序所在的目录均加到系统Path中,以便命令行直接调用。
两个都是开源软件,有兴趣的可以去官网下载源码。
1 获得授权码
- 登陆Bing Speech官网(需要有微软账户):
https://www.microsoft.com/cognitive-services/en-us/speech-a