在云计算、大数据和人工智能如此火爆的当下,各种提供语音识别的云服务层出不群。近日,尝试制作了基于IBM Watson Speech to Text service辅助生成英语MP3字幕文件的工具,觉得还不错,特共享如下。
工具使用C#编制,具体思路如下:
第1步,使用内嵌的WebBrowser访问IBM有关服务网站:https://speech-to-text-demo.ng.bluemix.net/,界面如下方所示:
在该步骤下,需要手动点击网页的“Upload Audio File”按钮选择上传要配字幕的MP3音频文件。上传成功后,网站即开始自动识别过程。等到识别完成后,还需要手动点击下方的Word Timings and Alternatives,即可看到按顺序识别到的单词及对应的开始时刻。
注:(1)界面上方的保存按钮,可以将识别后的网页内容保存成本地htm文件,下一次可点击载入按钮直接载入,而无需重复识别过程。
(2)当点击界面下方的“下一步”按钮时,程序会自动扫描网页内容,生成由单词和时刻信息组成的单词时刻字典列表,这里记作lstDict,其类型为List<KeyValuePaire<