语音关键词检索实验小结
语音关键词检索(KeywordsSearch),是指在连续语音流中检测出一组给定的关键词的过程。与大词汇量连续语音识别(Large Vocabulary Continuous Speech Recognition)相比,语音关键词检索不需要对非关键词的精确识别,只需要检测出关键词即可,降低了对语音识别系统的要求,拓展了系统的适用条件。语音关键词检索在实时对话系统,命令控制,语音拨号,语音监听,以及语音文档检索方面等方面有着广泛的应用。
语音关键词检索从输入内容的形式来看可以分为两种:一种是输入语音样例(Query-by-example),另一种是输入文本形式。对于输入为语音样例的关键词检索,现行常用无监督方法来实现,如基于帧的模板匹配方法和基于片段的模板匹配方法[1]。现行大多数文本形式关键词检测主要基于大词汇量连续语音识别技术。本文关注基于大词汇量连续语音识别技术的文本语音关键词检索。
问题阐述
语音识别可以看成是如下问题:对于给定的声学观测(acoustic observation)序列,求出对应的字(word)序列,使后验概率 最大化,即求得,有
在语音识别系统中,称为“解码”过程,即根据预先训练好的声学模型和语言模型,在全体可能的字序列空间中搜索出概率最大的序列。在实际的语音识别系统中,最优路径不一定与实际字序列匹配,我们一般希望能够得到得分最靠前的多条候选路径,即N-best。候选路径的保存需要紧凑,防止占用过多内存空间。我们一般采用词格(Lattice)来保存识别的候选序列。
词格没有一般的定义。在语音关键词检索问题中,词格需要包含时间信息。可以用加权有限状态转换器(Weighted Finite States Transducer,WFST),来紧凑地表示N-best候选路径,即词格。有限状态转换器是一个八元组,其中:
l A:表示输入符号表;
l B:表示输出符号表;
l Q:表示状态集合;
l I:表示初始状态集合;
l F:表示终止状态集合;
l