Pocketsphinx语音识别-----语言模型训练和声学模型的适应过程

本文介绍了Pocketsphinx语音识别中语言模型的训练过程,包括小文本量的英文模型和大数据量或中文模型的创建方法。重点讲述了如何从语料库生成arpa或dmp文件,并制作字典dic。此外,还强调了transcription和fileid的对应关系,允许添加多个人的录音对应相同话语。
摘要由CSDN通过智能技术生成

更新一下,之前对于txt, transcription, fileid文件的对应关系一直有疑惑。今天通过实验证明,transcription和fileid直接行行对应即可。这样就可以添加多个人录音,对应相同一句话的问题了。!!!

训练语言模型:

两种方法

1.对于小文本量&&英文,直接采用登录网站方式来生成语言模型lm和字典dic

利用在线工具LMTool建立语言模型,具体网址:http://www.speech.cs.cmu.edu/tools/lmtool-new.html

2.其他情况,比如大数据量的或中文,需要采用如下方法来生成语言模型。

输入:语料文本

输出: arpa或dmp文件。可相互转换。

另外,字典需要自己制造。就是dic文件,规则类似与拼音,但还不完全一样,后面在研究这个。


如何生成语言模型

准备工作,自己造一个语料库,即robot.txt文本文件。格式为:<s> 语料内容 </s> 注意<s>之后和</s>之前均应当有空格。

中间过程文件:$name.vocab  $name.idngram  $name.arpa文件,用完可删除。使用脚本./lm.sh robot.txt即可一次性生成输出文件。

输出有用文件: $name.lm.DMP

1. text2wfreq < robot.txt | wfreq2vocab > robot.vocab   生成arctic20.vocab文件

2. text2idngram -vocab robot.vocab -idngram robot.idngram < robot.txt  生成robot.idngram文件

3. idngram2lm -vocab_type 0 -idngram robot.idngram -vocab robot.vocab -arpa robot.arpa  依据第1,2步的输出,生成arpa文件

4.sphinx_lm_convert -i robot.arpa -o robot.lm.DMP   根据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值