更新词汇至Unigram词表进行识别

最新推荐文章于 2023-09-26 22:15:39 发布

lifesider

最新推荐文章于 2023-09-26 22:15:39 发布

阅读量3.1k

点赞数

分类专栏： Speech Recognition 文章标签：测试扩展语言工作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lifesider/article/details/6564631

版权

Speech Recognition 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在上一篇文章中提到通过在运行时修改某一词汇至特定词汇进行识别，然而当需要测试的新词汇较多时，并且新增词汇相近时，对于运行时手动修改的工作量是巨大的。为了具有更好的扩展性，这里提出一种对新增词汇进行统一处理的方法。

在语言模型目录（及与DMP模型和DICT词典文件相同的目录）下新增一个文本文件，如new_dict.txt，对于需要新增的词汇只需要手动加入到new_dict.txt中，一行一个词及音元序列，如

守波 sh ou b o

赖守波 l ai sh ou b o

.............

同时需要在词典和模型处理的源代码文件中，添加对new_dict.txt进行处理的代码：

在词典的创建过程中，需要读取new_dict.txt文件，并将词语和音元序列进行对应，这里需要注意的是音元必须是70个基本音元之一，同时词语不能有重复；

在模型的创建过程中，可优先读出new_dict.txt文件中的词语数目，并自动丢弃原模型文件中5000个词语中与新词汇相同数目的词语。

这样，则在运行时进行了对词典和模型文件的自动更新，并且我们需要测试新的词汇时，只需要手动添加到new_dict.txt文件中一次即可，便可看到识别效果。

目前的测试结果仍是基于修改Unigram词表，更进一步的是，需要对Bigram和Trigram词表进行分析及更新，这样既能节省词表空间，同时结合HMM模型使识别结果更精确。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
更新词汇至Unigram词表进行识别

在上一篇文章中提到通过在运行时修改某一词汇至特定词汇进行识别，然而当需要测试的新词汇较多时，并且新增词汇相近时，对于运行时手动修改的工作量是巨大的。为了具有更好的扩展性，这里提出一种对新增词汇进行统一处理的方法。在语言模型目录（及与DMP模型和DICT词典文件相同的目录）下新增一个文本文件，如new_dict.txt，对于需要新增的词汇只需要手动加入到new_dict.txt中，一行一个
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。