Pocketsphinx语音识别-----语言模型训练和声学模型的适应过程

最新推荐文章于 2020-12-31 02:48:14 发布

皮熊

最新推荐文章于 2020-12-31 02:48:14 发布

阅读量3.3k

点赞数 3

分类专栏：语音识别与语音合成

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ppp2006/article/details/22072139

版权

本文介绍了Pocketsphinx语音识别中语言模型的训练过程，包括小文本量的英文模型和大数据量或中文模型的创建方法。重点讲述了如何从语料库生成arpa或dmp文件，并制作字典dic。此外，还强调了transcription和fileid的对应关系，允许添加多个人的录音对应相同话语。

摘要由CSDN通过智能技术生成

更新一下，之前对于txt, transcription, fileid文件的对应关系一直有疑惑。今天通过实验证明，transcription和fileid直接行行对应即可。这样就可以添加多个人录音，对应相同一句话的问题了。！！！

训练语言模型：

两种方法

1.对于小文本量&&英文，直接采用登录网站方式来生成语言模型lm和字典dic

利用在线工具LMTool建立语言模型，具体网址：http://www.speech.cs.cmu.edu/tools/lmtool-new.html

2.其他情况，比如大数据量的或中文，需要采用如下方法来生成语言模型。

输入：语料文本

输出: arpa或dmp文件。可相互转换。

另外，字典需要自己制造。就是dic文件，规则类似与拼音，但还不完全一样，后面在研究这个。

如何生成语言模型

准备工作，自己造一个语料库，即robot.txt文本文件。格式为：<s> 语料内容 </s> 注意<s>之后和</s>之前均应当有空格。

中间过程文件：$name.vocab $name.idngram $name.arpa文件，用完可删除。使用脚本./lm.sh robot.txt即可一次性生成输出文件。

输出有用文件： $name.lm.DMP

1. text2wfreq < robot.txt | wfreq2vocab > robot.vocab 生成arctic20.vocab文件

2. text2idngram -vocab robot.vocab -idngram robot.idngram < robot.txt 生成robot.idngram文件

3. idngram2lm -vocab_type 0 -idngram robot.idngram -vocab robot.vocab -arpa robot.arpa 依据第1,2步的输出，生成arpa文件

4.sphinx_lm_convert -i robot.arpa -o robot.lm.DMP 根据

最低0.47元/天解锁文章

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。