The log of pocketsphinx

The following is the result of pocketsphinx, and here I use the corpus as follow:

Mandarin language model: zh_broadcastnews_64000_utf8.DMP, zh_broadcastnews_64000_utf8.dic

Mandarin Broadcast News acoustic models: zh_broadcastnews_16k_ptm256_8000.tar.bz2

Then I got the following log:



I:\>cd I:\3000\pocketsphinx-0.7-win32


I:\3000\pocketsphinx-0.7-win32>pocketsphinx_continuous.exe pocketsphinx.args
INFO: cmd_ln.c(559): Parsing command line:
\
        -hmm I:/3000/pocketsphinx-0.7-win32/model_zh/zh_broadcastnews_ptm256_800
0 \
        -lm I:/3000/pocketsphinx-0.7-win32/model_zh/zh_broadcastnews_64000_utf8.
DMP \
        -dict I:/3000/pocketsphinx-0.7-win32/model_zh/zh_broadcastnews_utf8.dic




Current configuration:
[NAME]          [DEFLT]         [VALUE]
-adcdev
-agc            none            none
-agcthresh      2.0             2.000000e+000
-alpha          0.97            9.700000e-001
-argfile
-ascale         20.0            2.000000e+001
-aw             1               1
-backtrace      no              no
-beam           1e-48           1.000000e-048
-bestpath       yes             yes
-bestpathlw     9.5             9.500000e+000
-bghist         no              no
-ceplen         13              13
-cmn            current         current
-cmninit        8.0             8.0
-compallsen     no              no
-debug                          0
-dict                           I:/3000/pocketsphinx-0.7-win32/model_zh/zh_broad
castnews_utf8.dic
-dictcase       no              no
-dither         no              no
-doublebw       no              no
-ds             1               1
-fdict
-feat           1s_c_d_dd       1s_c_d_dd
-featparams
-fillprob       1e-8            1.000000e-008
-frate          100             100
-fsg
-fsgusealtpron  yes             yes
-fsgusefiller   yes             yes
-fwdflat        yes             yes
-fwdflatbeam    1e-64           1.000000e-064
-fwdflatefwid   4               4
-fwdflatlw      8.5             8.500000e+000
-fwdflatsfwin   25              25
-fwdflatwbeam   7e-29           7.000000e-029
-fwdtree        yes             yes
-hmm                            I:/3000/pocketsphinx-0.7-win32/model_zh/zh_broad
castnews_ptm256_8000
-infile
-input_endian   little          little
-jsgf
-kdmaxbbi       -1              -1
-kdmaxdepth     0               0
-kdtree
-latsize        5000            5000
-lda
-ldadim         0               0
-lextreedump    0               0
-lifter         0               0
-lm                             I:/3000/pocketsphinx-0.7-win32/model_zh/zh_broad
castnews_64000_utf8.DMP
-lmctl
-lmname         default         default
-logbase        1.0001          1.000100e+000
-logfn
-logspec        no              no
-lowerf         133.33334       1.333333e+002
-lpbeam         1e-40           1.000000e-040
-lponlybeam     7e-29           7.000000e-029
-lw             6.5             6.500000e+000
-maxhmmpf       -1              -1
-maxnewoov      20              20
-maxwpf         -1              -1
-mdef
-mean
-mfclogdir
-min_endfr      0               0
-mixw
-mixwfloor      0.0000001       1.000000e-007
-mllr
-mmap           yes             yes
-ncep           13              13
-nfft           512             512
-nfilt          40              40
-nwpen          1.0             1.000000e+000
-pbeam          1e-48           1.000000e-048
-pip            1.0             1.000000e+000
-pl_beam        1e-10           1.000000e-010
-pl_pbeam       1e-5            1.000000e-005
-pl_window      0               0
-rawlogdir
-remove_dc      no              no
-round_filters  yes             yes
-samprate       16000           1.600000e+004
-seed           -1              -1
-sendump
-senlogdir
-senmgau
-silprob        0.005           5.000000e-003
-smoothspec     no              no
-svspec
-time           no              no
-tmat
-tmatfloor      0.0001          1.000000e-004
-topn           4               4
-topn_beam      0               0
-toprule
-transform      legacy          legacy
-unit_area      yes             yes
-upperf         6855.4976       6.855498e+003
-usewdphones    no              no
-uw             1.0             1.000000e+000
-var
-varfloor       0.0001          1.000000e-004
-varnorm        no              no
-verbose        no              no
-warp_params
-warp_type      inverse_linear  inverse_linear
-wbeam          7e-29           7.000000e-029
-wip            0.65            6.500000e-001
-wlen           0.025625        2.562500e-002


INFO: cmd_ln.c(559): Parsing command line:
\
        -alpha 0.97 \
        -doublebw no \
        -nfilt 40 \
        -ncep 13 \
        -lowerf 133.33334 \
        -upperf 6855.4976 \
        -nfft 512 \
        -wlen 0.0256 \
        -transform legacy \
        -feat s2_4x \
        -agc none \
        -cmn current \
        -varnorm no


Current configuration:
[NAME]          [DEFLT]         [VALUE]
-agc            none            none
-agcthresh      2.0             2.000000e+000
-alpha          0.97            9.700000e-001
-ceplen         13              13
-cmn            current         current
-cmninit        8.0             8.0
-dither         no              no
-doublebw       no              no
-feat           1s_c_d_dd       s2_4x
-frate          100             100
-input_endian   little          little
-lda
-ldadim         0               0
-lifter         0               0
-logspec        no              no
-lowerf         133.33334       1.333333e+002
-ncep           13              13
-nfft           512             512
-nfilt          40              40
-remove_dc      no              no
-round_filters  yes             yes
-samprate       16000           1.600000e+004
-seed           -1              -1
-smoothspec     no              no
-svspec
-transform      legacy          legacy
-unit_area      yes             yes
-upperf         6855.4976       6.855498e+003
-varnorm        no              no
-verbose        no              no
-warp_params
-warp_type      inverse_linear  inverse_linear
-wlen           0.025625        2.560000e-002


INFO: acmod.c(242): Parsed model-specific feature parameters from I:/3000/pocket
sphinx-0.7-win32/model_zh/zh_broadcastnews_ptm256_8000/feat.params
INFO: feat.c(697): Initializing feature stream to type: 's2_4x', ceplen=13, CMN=
'current', VARNORM='no', AGC='none'
INFO: cmn.c(142): mean[0]= 12.00, mean[1..12]= 0.0
INFO: mdef.c(520): Reading model definition: I:/3000/pocketsphinx-0.7-win32/mode
l_zh/zh_broadcastnews_ptm256_8000/mdef
INFO: bin_mdef.c(173): Allocating 68760 * 8 bytes (537 KiB) for CD tree
INFO: tmat.c(205): Reading HMM transition probability matrices: I:/3000/pocketsp
hinx-0.7-win32/model_zh/zh_broadcastnews_ptm256_8000/transition_matrices
INFO: acmod.c(117): Attempting to use SCHMM computation module
INFO: ms_gauden.c(198): Reading mixture gaussian parameter: I:/3000/pocketsphinx
-0.7-win32/model_zh/zh_broadcastnews_ptm256_8000/means
INFO: ms_gauden.c(292): 70 codebook, 4 feature, size:
INFO: ms_gauden.c(294):  256x12
INFO: ms_gauden.c(294):  256x24
INFO: ms_gauden.c(294):  256x3
INFO: ms_gauden.c(294):  256x12
INFO: ms_gauden.c(198): Reading mixture gaussian parameter: I:/3000/pocketsphinx
-0.7-win32/model_zh/zh_broadcastnews_ptm256_8000/variances
INFO: ms_gauden.c(292): 70 codebook, 4 feature, size:
INFO: ms_gauden.c(294):  256x12
INFO: ms_gauden.c(294):  256x24
INFO: ms_gauden.c(294):  256x3
INFO: ms_gauden.c(294):  256x12
INFO: ms_gauden.c(354): 24440 variance values floored
INFO: acmod.c(119): Attempting to use PTHMM computation module
INFO: ms_gauden.c(198): Reading mixture gaussian parameter: I:/3000/pocketsphinx
-0.7-win32/model_zh/zh_broadcastnews_ptm256_8000/means
INFO: ms_gauden.c(292): 70 codebook, 4 feature, size:
INFO: ms_gauden.c(294):  256x12
INFO: ms_gauden.c(294):  256x24
INFO: ms_gauden.c(294):  256x3
INFO: ms_gauden.c(294):  256x12
INFO: ms_gauden.c(198): Reading mixture gaussian parameter: I:/3000/pocketsphinx
-0.7-win32/model_zh/zh_broadcastnews_ptm256_8000/variances
INFO: ms_gauden.c(292): 70 codebook, 4 feature, size:
INFO: ms_gauden.c(294):  256x12
INFO: ms_gauden.c(294):  256x24
INFO: ms_gauden.c(294):  256x3
INFO: ms_gauden.c(294):  256x12
INFO: ms_gauden.c(354): 24440 variance values floored
INFO: ptm_mgau.c(472): Loading senones from dump file I:/3000/pocketsphinx-0.7-w
in32/model_zh/zh_broadcastnews_ptm256_8000/sendump
INFO: ptm_mgau.c(496): BEGIN FILE FORMAT DESCRIPTION
INFO: ptm_mgau.c(559): Rows: 256, Columns: 8210
INFO: ptm_mgau.c(591): Using memory-mapped I/O for senones
INFO: ptm_mgau.c(834): Maximum top-N: 4
INFO: dict.c(306): Allocating 101599 * 20 bytes (1984 KiB) for word entries
INFO: dict.c(321): Reading main dictionary: I:/3000/pocketsphinx-0.7-win32/model
_zh/zh_broadcastnews_utf8.dic
INFO: dict.c(212): Allocated 737 KiB for strings, 977 KiB for phones
INFO: dict.c(324): 97495 words read
INFO: dict.c(330): Reading filler dictionary: I:/3000/pocketsphinx-0.7-win32/mod
el_zh/zh_broadcastnews_ptm256_8000/noisedict
INFO: dict.c(212): Allocated 0 KiB for strings, 0 KiB for phones
INFO: dict.c(333): 8 words read
INFO: dict2pid.c(396): Building PID tables for dictionary
INFO: dict2pid.c(404): Allocating 70^3 * 2 bytes (669 KiB) for word-initial trip
hones
INFO: dict2pid.c(131): Allocated 59080 bytes (57 KiB) for word-final triphones
INFO: dict2pid.c(195): Allocated 59080 bytes (57 KiB) for single-phone word trip
hones
INFO: ngram_model_arpa.c(77): No \data\ mark in LM file
INFO: ngram_model_dmp.c(142): Will use memory-mapped I/O for LM file
INFO: ngram_model_dmp.c(196): ngrams 1=63944, 2=16600781, 3=20708460
INFO: ngram_model_dmp.c(242):    63944 = LM.unigrams(+trailer) read
INFO: ngram_model_dmp.c(291): 16600781 = LM.bigrams(+trailer) read
INFO: ngram_model_dmp.c(317): 20708460 = LM.trigrams read
INFO: ngram_model_dmp.c(342):    32337 = LM.prob2 entries read
INFO: ngram_model_dmp.c(362):    24468 = LM.bo_wt2 entries read
INFO: ngram_model_dmp.c(382):    27937 = LM.prob3 entries read
INFO: ngram_model_dmp.c(410):    32424 = LM.tseg_base entries read
INFO: ngram_model_dmp.c(466):    63944 = ascii word strings read
INFO: ngram_search_fwdtree.c(99): 476 unique initial diphones
INFO: ngram_search_fwdtree.c(147): 0 root, 0 non-root channels, 122 single-phone
 words
INFO: ngram_search_fwdtree.c(186): Creating search tree
INFO: ngram_search_fwdtree.c(191): before: 0 root, 0 non-root channels, 122 sing
le-phone words
INFO: ngram_search_fwdtree.c(326): after: max nonroot chan increased to 75539
INFO: ngram_search_fwdtree.c(338): after: 461 root, 75411 non-root channels, 27
single-phone words
INFO: ngram_search_fwdflat.c(156): fwdflat: min_ef_width = 4, max_sf_win = 25
INFO: continuous.c(367): pocketsphinx_continuous.exe COMPILED ON: Apr 16 2011, A
T: 02:51:40


Allocating 32 buffers of 2500 samples each
READY....
Listening...
Stopped listening, please wait...
000000000: 爱
READY....
Allocating 32 buffers of 2500 samples each
READY....


I face a big problem here, every time I ran the program I can only got one result. For example, only the word  爱 is computed and then the program stopped there.

I am not sure what happened. 

I tried to use the version for Linux, after compiling all the codes, the error "ad_oss.c(103): Failed to open audio device(/dev/dsp): No such file or directory
FATAL_ERROR: "continuous.c", line 242: Failed top open audio device" appeared. I install the oss_compat according to the FAQ and found that some of the modules cannot be found. The problem I faced is the same as http://sourceforge.net/projects/cmusphinx/forums/forum/5471/topic/5164223?message=11341904. I hope that who can give me an answer.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
本文档介绍Sphinx4在Windows下的中文训练过程及注意事项,与本文档配套的是我自己的训练实例bergtrain和用到的软件。 本文档编写日期 2013-04-23 1、为什么要训练? sphinx4目前的版本中仅提供了英文等语音识别库。中文的库是PTM或semi类型的,在java版sphinx中无法使用。 2、Sphinx的训练指哪些内容? 在Sphinx中有语言模型、声学模型等概念,如果你不想了解这些,请参考以下内容: a1、中文每个字的标准发音已经有一个较为全面的文件进行了标注 这个文件就是zh_broadcastnews_utf8.dic(下称这类文件为发音字典),在sphinx网站上可以下载,我们也包含了它。 下面是该文件的片断,它用类似拼音的方式标注了每个字或词的发音。 昌 ch ang 昌北 ch ang b ei 昌必 ch ang b i 昌都 ch ang d u 昌赫 ch ang h e a2、需要告诉sphinx我们经常使用的字、词是哪些,它们出现的频率如何 由于开放式语音识别尚难实现,所以sphinx实际上只能较好的处理相对小的语言集合。 因此,针对特定的领域,告诉sphinx该领域的词汇和各词出现的频率将极大提高识别率。 a3、需要告诉sphinx每个字、词的真正读音 发音字典告诉sphinx每个字的标准读音,但面对的说话人往往不会以标准读音来朗读。 因此sphinx需要学习说话人的“口音”。 如果训练时的读者发音比较标准,则sphinx能“举一反三”,识别其他不那么标准的读者的语音。 推荐的做法是训练一些典型的口音:标准男、女声,童音,最后再考虑特定用户的口音。 3、如何准备训练内容所需的原料? 需要准备两大内容:1)文本语料文件,2)语料录音文件。 文本语料文件给出2.a2中需要的内容,在bergtrain的etc文件下的berginput.txt文件就是一个预料文件。 它以行为单位,给出了150个中文句子。 语料录音文件是根据文本语料文件,朗读它的每行/句话,保存到每一个语音文件即可。 语料文件中的语句应该尽量选择领域相关的,在覆盖领域内名词的前提下,覆盖尽可能多的通用词汇。 4、训练环境及注意事项 本文的训练软硬件如下: 硬件:T60P笔记本,机器自带录音设备;操作系统为Win7 32位。 软件:Sphinx cmuclmtk-0.7-win32.zip pocketsphinx-0.8-win32.zip sphinxbase-0.8-win32.zip sphinxtrain-1.0.8-win32.zip sphinx4-1.0beta6-bin.zip,用于编写java版的识别软件所需的库 脚本执行软件 ActivePerl-5.16.3.1603-MSWin32-x86-296746.msi ActivePython-2.7.2.5-win32-x86.msi 录音和处理软件 audacity-win-2.0.3rc1.zip,可进行录音和声音文件处理(如降噪),免费软件 FairStars.zip,可进行批量录音(V3.5绿色版) 文本编辑软件UltraEdit,UltraEdit-32.rar绿色版 注意: 文件格式 语料文件必须使用UltraEdit进行编辑, 在编辑后,使用 文件-转换-ASCII转UTF-8(UNICODE编辑),指定文件中的中文使用utf8编码。 在保存前,设置格式如下: 换行符:UNIX终束符 - LF 指定文件中的回车/换行符为编码0A的换行符 格式:UTF-8 - 无BOM 每个文件的末尾必须有一个回车! 这个回车将在保存时被替换为编码0A的换行符,训练脚本需要这个符号来确认文件的结束。 录音文件 如果你不希望去编辑训练中的配置文件,则在使用FairStars录音时作如下设定: 进入菜单和对话框 选项-显示录音选项-编码-WMA, 设定:采样率(16000Hz)、通道(单声道)、比特率(16Kbps) 5、训练步骤 下面逐步从零开始进行训练 5.1 软件环境的安装 将本文档所在的文件夹解压或拷贝到d:\,即本文档路径是d:\sphinxtrain\Sphinx中文训练教程.txt 1)点击安装ActivePerl-5.16.3.1603-MSWin32-x86-296746.msi和ActivePython-2.7.2.5-win32-x86.msi; 2)解压Sphinx中除sphinx4-1.0beta6-bin.zip外的压缩文件到d:\sphinxtrain下

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值