1.静态解码:
composition
determinization
minimization
2. 语言模型重评估:
文章《电话交谈语音识别中基于LSTM-DNN语言模型的重评估方法研究》
声学模型只能识别语音信号中音素、音节、或者词的相似程度,但不能捕捉到词与词之间的相关性。
语言模型则可以利用不同的上下文关系,或者其他语言学信息来预测每一个词可能发生的概率。可以解决声学模型混淆度的问题。
语言模型 重评估通过用复杂的模型对一遍解码的N候选lattice进行重新打分,然后根据新的分数进行排序,选取最优输出识别结果。
复杂的语言模型可以使用LSTM-DNN模型训练,对历史信息具有良好的记忆能力。
3. 动态解码:
Look-Ahead Composition,On-the-fly Rescoring
论文《Efficient WFST-Based One-Pass Decoding With On-The-Fly Hypothesis Rescoring in Extremely Large Vocabulary Continuous Speech Recognition》解读
on-the-fly composition 使用 sub-WFST避免