任何人都可以推荐可靠的开源软件,用于在wav文件中转录英文演讲?我研究的两个主要程序是
Sphinx和
Julius,但是我从来没有能够工作,每个关于转录文件的文档都是粗略的。
我正在开发64位Ubuntu 10.04,其中包括sphinx2和julius,以及voxforge的julius英语声学模态。我专注于转录文件,而不是直接处理来自麦克风的声音,因为我放弃了像这样的项目,以配合Ubuntu的音响系统。这不是对Ubuntu的敲门声,因为我可以通过使用Audacity来完美地录制我的麦克风的声音,但是两个系统似乎都无法访问我的麦克风,所以我希望只需从文件中读取即可完成配置。
我首先从Ubuntu软件包sphinx2-bin尝试Sphinx2。即使示例sphinx2演示似乎在转录文件上起作用,实际上没有关于配置的文档,所以我不知道如何自定义这个从任意的wav中读取。演示文稿中使用的音频文件采用一些未记录的“16k”格式,通过2个配置文件间接引用。有一个简短的描述,将sphinx2-demo描述为运行sphinx2批处理,但检查脚本显示它实际上是调用sphinx2连续的。更糟糕的是,–help文档为每个脚本列表大约6打选项,并没有提到哪些是必需的或可选的。总的来说,缺乏狮身人面像的文档,以及现有文档的质量差,正在推动我。
我接下来尝试了朱利叶斯,再次来自Ubuntu软件包,这是令人惊讶的最近(4.1),考虑到Voxforge的快速启动版本是3.5。该包似乎包含稍微更好的文档,甚至使用Python编写的示例(/ usr / share / doc / julius-voxforge / examples / controlapp)。阅读示例文档后,我尝试通过创建一个包含文本“hello.wav”的文件filelist.txt从文件中读取,指向同名文件,其中包含一个用户名为“hello”的用户的记录。把它们放在同一个目录中,我跑了:
julius -input file -filelist filelist.txt -C julian.jconf
得到回应:
### read waveform input
Error: adin_file: sampling rate != 16000 (8000)
Error: adin_file: error in parsing wav header at hello.wav
Error: adin_file: failed to read speech data: "hello.wav"
0 files processed
通过指定filelist.txt和hello.wav的绝对文件名进行重试会产生相同的错误。
我也尝试过例子中使用的朱利叶斯电话,直接从麦克风录音:
julius -input mic -C julian.jconf
我打了几次电话,响应在错误之间有所不同:
Cannot read /dev/dsp
和:
STAT: AD-in thread created
<<< please speak >>>
在后一种情况下,无论我在麦克风里说什么,都没有发生。我无法判断它是否仍然无法读取麦克风,或者如果它正在读取东西,但是根本无法誊写音频。
我不知道该怎么做。我得到的错误不会让我失望。为什么它不能读wav?为什么不能读/ dev / dsp?为什么看起来可以读取/ dev / dsp,但是没有任何反应?
有其他任何人在开源语音识别器方面取得了成功,尤其是在Linux上?