Speech Recognition
lifesider
人生就是一次在自我迷失中寻找自我的长途旅行
展开
-
在语言模型文件中更新词汇以提高识别正确率
完成CMU Sphinx Toolkit到UNICODE的移植后,由于其自身支持的中文词汇太少且过于简单,实际生活中的很多词汇无法识别,由于其缺少开发文档,只能在代码跟踪的过程里心烦了。 于是想,肯定需要在词典文件中增加新词汇吧,如果其本身是按照Ciphone序列进行识别的话,应该就能识别出新词汇。后来在词典文件中增加了几个特定词汇,发现识别结果未发生任何变化。 于是又对DMP原创 2011-06-18 10:33:00 · 4152 阅读 · 2 评论 -
更新词汇至Unigram词表进行识别
在上一篇文章中提到通过在运行时修改某一词汇至特定词汇进行识别,然而当需要测试的新词汇较多时,并且新增词汇相近时,对于运行时手动修改的工作量是巨大的。为了具有更好的扩展性,这里提出一种对新增词汇进行统一处理的方法。 在语言模型目录(及与DMP模型和DICT词典文件相同的目录)下新增一个文本文件,如new_dict.txt,对于需要新增的词汇只需要手动加入到new_dict.txt中,一行一个原创 2011-06-23 23:21:00 · 3115 阅读 · 0 评论