最近一直在自主学习连续语音识别的相关知识,也着手开始动手自己做一些列的实验。实验过程中需要采集自己需要的语料数据,但是发现采集之后标注确实是个问题,单纯使用praat逐个词的将音素也标注出来,实在是费时费力,所以经过这几天与同学的讨论和搜集资料,找到一个叫SPPAS的自动对齐标注软件,通过实验,基本满足我的需求,下面给大家介绍一下。
SPPAS介绍:
这个软件是法国人搞的,所以毋庸置疑,对于法语的标注效果最好。当然软件同样支持英文,中文等十种语言。软件中会有每种语言所训练好的语法字典以及声学模型,我只是测试了中文和英文的标注,效果挺不错的,基本能够保证一般的需求,也就是将文本标注成词级别和音素级别。
SPPAS下载:
官方的下载网址是:http://aune.lpl.univ-aix.fr/~bigi/sppas/download.php
SPPAS安装:
在安装SPPAS之前,需要先事先安装好以下的部分:
- Python
- wxPython
- sox
- Julius
注:这里需要注意的一点是SPPAS的安装路径要在英文目录下,一开始我安装忽略了这一点,安装之后使用不了,总是报错误,后来才发现,安装的路径中有中文。
SPPAS使用:
安装好之后我们打开就能看到初始化的界面:
下面我们就可从尝试标注了:
例:
我们对wav文件进行标注,我们需要wav文件以及所对应的同名的txt文件,txt中的内容与wav内容对应。如:000.wav中的内容为“zero”,我们要在000.txt文件中写入“zero”,值得注意的是如果是一句话的话,里面涉及的停顿部分我们使用#来隔开,以帮助其找到分界点。
准备工作搞定之后我们添加文件:
然后在右面根据我们的需要选择:
注:最下两个选项貌似只支持法语和意大利语,不使用的时候不要选择。
然后选中wav,点击右面最下面的开始标注:
搞定之后会出现相应的日志:
然后我们查看文件夹下:
这是标注好的结果,一般merge.TextGrid就是我们需要的部分,我们可以使用praat来进行查看:
以上就是SPPAS自动对齐软件的介绍安装和使用。