已经运行过的yesno示例,生成的文件如下:
├── conf 配置文件夹
│ ├── mfcc.conf
│ └── topo_orig.proto
├── data yesno运行产生的相关文件
│ ├── lang 跟语言相关 执行lang相关脚本产生的跟音素相关的文件
│ │ ├── L_disambig.fst
│ │ ├── L.fst
│ │ ├── oov.int
│ │ ├── oov.txt
│ │ ├── phones
│ │ │ ├── align_lexicon.int
│ │ │ ├── align_lexicon.txt
│ │ │ ├── context_indep.csl
│ │ │ ├── context_indep.int
│ │ │ ├── context_indep.txt
│ │ │ ├── disambig.csl
│ │ │ ├── disambig.int
│ │ │ ├── disambig.txt
│ │ │ ├── extra_questions.int
│ │ │ ├── extra_questions.txt
│ │ │ ├── nonsilence.csl
│ │ │ ├── nonsilence.int
│ │ │ ├── nonsilence.txt
│ │ │ ├── optional_silence.csl
│ │ │ ├── optional_silence.int
│ │ │ ├── optional_silence.txt
│ │ │ ├── roots.int
│ │ │ ├── roots.txt
│ │ │ ├── sets.int
│ │ │ ├── sets.txt
│ │ │ ├── silence.csl
│ │ │ ├── silence.int
│ │ │ ├── silence.txt
│ │ │ ├── wdisambig_phones.int
│ │ │ ├── wdisambig.txt
│ │ │ └── wdisambig_words.int
│ │ ├── phones.txt
│ │ ├── topo
│ │ └── words.txt
│ ├── lang_test_tg
│ │ ├── G.fst
│ │ ├── L_disambig.fst
│ │ ├── L.fst
│ │ ├── oov.int
│ │ ├── oov.txt
│ │ ├── phones
│ │ │ ├── align_lexicon.int
│ │ │ ├── align_lexicon.txt
│ │ │ ├── context_indep.csl
│ │ │ ├── context_indep.int
│ │ │ ├── context_indep.txt
│ │ │ ├── disambig.csl
│ │ │ ├── disambig.int
│ │ │ ├── disambig.txt
│ │ │ ├── extra_questions.int
│ │ │ ├── extra_questions.txt
│ │ │ ├── nonsilence.csl
│ │ │ ├── nonsilence.int
│ │ │ ├── nonsilence.txt
│ │ │ ├── optional_silence.csl
│ │ │ ├── optional_silence.int
│ │ │ ├── optional_silence.txt
│ │ │ ├── roots.int
│ │ │ ├── roots.txt
│ │ │ ├── sets.int
│ │ │ ├── sets.txt
│ │ │ ├── silence.csl
│ │ │ ├── silence.int
│ │ │ ├── silence.txt
│ │ │ ├── wdisambig_phones.int
│ │ │ ├── wdisambig.txt
│ │ │ └── wdisambig_words.int
│ │ ├── phones.txt
│ │ ├── tmp
│ │ │ ├── CLG_1_0.fst
│ │ │ ├── disambig_ilabels_1_0.int
│ │ │ ├── ilabels_1_0
│ │ │ └── LG.fst
│ │ ├── topo
│ │ └── words.txt
│ ├── local 存储文件
│ │ ├── dict
│ │ │ ├── lexiconp.txt
│ │ │ ├── lexicon.txt
│ │ │ ├── lexicon_words.txt
│ │ │ ├── nonsilence_phones.txt
│ │ │ ├── optional_silence.txt
│ │ │ └── silence_phones.txt
│ │ ├── lang
│ │ │ ├── align_lexicon.txt
│ │ │ ├── lexiconp_disambig.txt
│ │ │ ├── lexiconp.txt
│ │ │ ├── lex_ndisambig
│ │ │ ├── phone_map.txt
│ │ │ └── phones
│ │ ├── lm_tg.arpa
│ │ ├── test_yesno.txt
│ │ ├── test_yesno_wav.scp
│ │ ├── train_yesno.txt
│ │ ├── train_yesno_wav.scp
│ │ ├── waves_all.list
│ │ ├── waves.test
│ │ └── waves.train
│ ├── test_yesno local文件夹下 存储测试数据集在数据准备阶段生成的四个相关文件
│ │ ├── cmvn.scp
│ │ ├── feats.scp
│ │ ├── spk2utt
│ │ ├── split1
│ │ │ └── 1
│ │ │ ├── cmvn.scp
│ │ │ ├── feats.scp
│ │ │ ├── spk2utt
│ │ │ ├── text
│ │ │ ├── utt2spk
│ │ │ └── wav.scp
│ │ ├── text
│ │ ├── utt2spk
│ │ └── wav.scp
│ └── train_yesno
│ ├── cmvn.scp
│ ├── feats.scp
│ ├── spk2utt
│ ├── split1
│ │ └── 1
│ │ ├── cmvn.scp
│ │ ├── feats.scp
│ │ ├── spk2utt
│ │ ├── text
│ │ ├── utt2spk
│ │ └── wav.scp
│ ├── text
│ ├── utt2spk
│ └── wav.scp
├── exp 中间过程,数据准备时先将文件放在这个文件夹再复制到data文件夹,最后exp文件夹存储的是log日志文件
│ ├── make_mfcc
│ │ ├── test_yesno
│ │ │ ├── cmvn_test_yesno.log
│ │ │ └── make_mfcc_test_yesno.1.log
│ │ └── train_yesno
│ │ ├── cmvn_train_yesno.log
│ │ └── make_mfcc_train_yesno.1.log
│ └── mono0a
│ ├── 0.mdl
│ ├── 40.mdl
│ ├── 40.occs
│ ├── ali.1.gz
│ ├── cmvn_opts
│ ├── decode_test_yesno
│ │ ├── lat.1.gz
│ │ ├── log
│ │ │ ├── analyze_alignments.log
│ │ │ ├── analyze_lattice_depth_stats.log
│ │ │ ├── decode.1.log
│ │ │ ├── get_lattice_stats.1.log
│ │ │ └── lattice_best_path.1.log
│ │ ├── num_jobs
│ │ ├── scoring
│ │ │ ├── 10.tra
│ │ │ ├── 11.tra
│ │ │ ├── 7.tra
│ │ │ ├── 8.tra
│ │ │ ├── 9.tra
│ │ │ ├── log
│ │ │ │ ├── best_path.10.log
│ │ │ │ ├── best_path.11.log
│ │ │ │ ├── best_path.7.log
│ │ │ │ ├── best_path.8.log
│ │ │ │ ├── best_path.9.log
│ │ │ │ ├── score.10.log
│ │ │ │ ├── score.11.log
│ │ │ │ ├── score.7.log
│ │ │ │ ├── score.8.log
│ │ │ │ └── score.9.log
│ │ │ └── test_filt.txt
│ │ ├── wer_10
│ │ ├── wer_11
│ │ ├── wer_7
│ │ ├── wer_8
│ │ └── wer_9
│ ├── final.mdl -> 40.mdl
│ ├── final.occs -> 40.occs
│ ├── fsts.1.gz
│ ├── graph_tgpr
│ │ ├── disambig_tid.int
│ │ ├── HCLG.fst
│ │ ├── num_pdfs
│ │ ├── phones
│ │ │ ├── align_lexicon.int
│ │ │ ├── align_lexicon.txt
│ │ │ ├── disambig.int
│ │ │ ├── disambig.txt
│ │ │ ├── optional_silence.csl
│ │ │ ├── optional_silence.int
│ │ │ ├── optional_silence.txt
│ │ │ └── silence.csl
│ │ ├── phones.txt
│ │ └── words.txt
│ ├── log
│ │ ├── acc.10.1.log
│ │ ├── acc.11.1.log
│ │ ├── acc.1.1.log
│ │ ├── acc.12.1.log
│ │ ├── acc.13.1.log
│ │ ├── acc.14.1.log
│ │ ├── acc.15.1.log
│ │ ├── acc.16.1.log
│ │ ├── acc.17.1.log
│ │ ├── acc.18.1.log
│ │ ├── acc.19.1.log
│ │ ├── acc.20.1.log
│ │ ├── acc.21.1.log
│ │ ├── acc.2.1.log
│ │ ├── acc.22.1.log
│ │ ├── acc.23.1.log
│ │ ├── acc.24.1.log
│ │ ├── acc.25.1.log
│ │ ├── acc.26.1.log
│ │ ├── acc.27.1.log
│ │ ├── acc.28.1.log
│ │ ├── acc.29.1.log
│ │ ├── acc.30.1.log
│ │ ├── acc.31.1.log
│ │ ├── acc.3.1.log
│ │ ├── acc.32.1.log
│ │ ├── acc.33.1.log
│ │ ├── acc.34.1.log
│ │ ├── acc.35.1.log
│ │ ├── acc.36.1.log
│ │ ├── acc.37.1.log
│ │ ├── acc.38.1.log
│ │ ├── acc.39.1.log
│ │ ├── acc.4.1.log
│ │ ├── acc.5.1.log
│ │ ├── acc.6.1.log
│ │ ├── acc.7.1.log
│ │ ├── acc.8.1.log
│ │ ├── acc.9.1.log
│ │ ├── align.0.1.log
│ │ ├── align.10.1.log
│ │ ├── align.1.1.log
│ │ ├── align.12.1.log
│ │ ├── align.14.1.log
│ │ ├── align.16.1.log
│ │ ├── align.18.1.log
│ │ ├── align.20.1.log
│ │ ├── align.2.1.log
│ │ ├── align.23.1.log
│ │ ├── align.26.1.log
│ │ ├── align.29.1.log
│ │ ├── align.3.1.log
│ │ ├── align.32.1.log
│ │ ├── align.35.1.log
│ │ ├── align.38.1.log
│ │ ├── align.4.1.log
│ │ ├── align.5.1.log
│ │ ├── align.6.1.log
│ │ ├── align.7.1.log
│ │ ├── align.8.1.log
│ │ ├── align.9.1.log
│ │ ├── analyze_alignments.log
│ │ ├── compile_graphs.1.log
│ │ ├── get_phone_alignments.1.log
│ │ ├── init.log
│ │ ├── update.0.log
│ │ ├── update.10.log
│ │ ├── update.11.log
│ │ ├── update.12.log
│ │ ├── update.13.log
│ │ ├── update.14.log
│ │ ├── update.15.log
│ │ ├── update.16.log
│ │ ├── update.17.log
│ │ ├── update.18.log
│ │ ├── update.19.log
│ │ ├── update.1.log
│ │ ├── update.20.log
│ │ ├── update.21.log
│ │ ├── update.22.log
│ │ ├── update.23.log
│ │ ├── update.24.log
│ │ ├── update.25.log
│ │ ├── update.26.log
│ │ ├── update.27.log
│ │ ├── update.28.log
│ │ ├── update.29.log
│ │ ├── update.2.log
│ │ ├── update.30.log
│ │ ├── update.31.log
│ │ ├── update.32.log
│ │ ├── update.33.log
│ │ ├── update.34.log
│ │ ├── update.35.log
│ │ ├── update.36.log
│ │ ├── update.37.log
│ │ ├── update.38.log
│ │ ├── update.39.log
│ │ ├── update.3.log
│ │ ├── update.4.log
│ │ ├── update.5.log
│ │ ├── update.6.log
│ │ ├── update.7.log
│ │ ├── update.8.log
│ │ └── update.9.log
│ ├── num_jobs
│ ├── phones.txt
│ └── tree
├── input 写好的文件 需要自己事先准备好
│ ├── lexicon_nosil.txt 不包含sil静音数据
│ ├── lexicon.txt 包含sil静音数据
│ ├── phones.txt 音素集--发音单元
│ └── task.arpabo
├── local 存储的是跟需求相关的脚本,一般是自定义的,跟自己的实际项目做相关处理
│ ├── create_yesno_txt.pl
│ ├── create_yesno_waves_test_train.pl
│ ├── create_yesno_wav_scp.pl
│ ├── prepare_data.sh
│ ├── prepare_dict.sh
│ ├── prepare_lm.sh
│ └── score.sh
├── mfcc 特征提取后保存路径
│ ├── cmvn_test_yesno.ark
│ ├── cmvn_test_yesno.scp
│ ├── cmvn_train_yesno.ark
│ ├── cmvn_train_yesno.scp
│ ├── raw_mfcc_test_yesno.1.ark
│ ├── raw_mfcc_test_yesno.1.scp
│ ├── raw_mfcc_train_yesno.1.ark
│ └── raw_mfcc_train_yesno.1.scp
├── mfcc.txt .ark文件是提取的mfcc特征的二进制文件,在s5目录下执行代码
../../src/featbin/copy-feats ark:ark文件地址 ark,t:mfcc.txt 上述代码将ark二进制文件转换为txt文件
├── path.sh 全局变量脚本 设置一些全局变量 在脚本运行需要时调用 可根据自己电脑或者集群进行更改配置
├── run.sh 程序运行脚本 调用s5路径下跟项目相关的文件 sh run.sh waves_yesno (运行代码)
├── steps -> ../../wsj/s5/steps kaldi通用脚本 在wsj文件夹中 一般脚本调用steps/utils, 都是这两个文件夹
├── utils -> ../../wsj/s5/utils
├── waves_yesno wav数据文件夹 下载的yesno示例的数据集解压
│ ├── 0_0_0_0_1_1_1_1.wav
│ ├── 0_0_0_1_0_0_0_1.wav
│ ├── 0_0_0_1_0_1_1_0.wav
│ ├── 0_0_1_0_0_0_1_0.wav
│ ├── 0_0_1_0_0_1_1_0.wav
│ ├── 0_0_1_0_0_1_1_1.wav
│ ├── 0_0_1_0_1_0_0_0.wav
│ ├── 0_0_1_0_1_0_0_1.wav
│ ├── 0_0_1_0_1_0_1_1.wav
│ ├── 0_0_1_1_0_0_0_1.wav
│ ├── 0_0_1_1_0_1_0_0.wav
│ ├── 0_0_1_1_0_1_1_0.wav
│ ├── 0_0_1_1_0_1_1_1.wav
│ ├── 0_0_1_1_1_0_0_0.wav
│ ├── 0_0_1_1_1_0_0_1.wav
│ ├── 0_0_1_1_1_1_0_0.wav
│ ├── 0_0_1_1_1_1_1_0.wav
│ ├── 0_1_0_0_0_1_0_0.wav
│ ├── 0_1_0_0_0_1_1_0.wav
│ ├── 0_1_0_0_1_0_1_0.wav
│ ├── 0_1_0_0_1_0_1_1.wav
│ ├── 0_1_0_1_0_0_0_0.wav
│ ├── 0_1_0_1_1_0_1_0.wav
│ ├── 0_1_0_1_1_1_0_0.wav
│ ├── 0_1_1_0_0_1_1_0.wav
│ ├── 0_1_1_0_0_1_1_1.wav
│ ├── 0_1_1_1_0_0_0_0.wav
│ ├── 0_1_1_1_0_0_1_0.wav
│ ├── 0_1_1_1_0_1_0_1.wav
│ ├── 0_1_1_1_1_0_1_0.wav
│ ├── 0_1_1_1_1_1_1_1.wav
│ ├── 1_0_0_0_0_0_0_0.wav
│ ├── 1_0_0_0_0_0_0_1.wav
│ ├── 1_0_0_0_0_0_1_1.wav
│ ├── 1_0_0_0_1_0_0_1.wav
│ ├── 1_0_0_1_0_1_1_1.wav
│ ├── 1_0_1_0_1_0_0_1.wav
│ ├── 1_0_1_1_0_1_1_1.wav
│ ├── 1_0_1_1_1_0_1_0.wav
│ ├── 1_0_1_1_1_1_0_1.wav
│ ├── 1_1_0_0_0_0_0_1.wav
│ ├── 1_1_0_0_0_1_1_1.wav
│ ├── 1_1_0_0_1_0_1_0.wav
│ ├── 1_1_0_0_1_0_1_1.wav
│ ├── 1_1_0_0_1_1_1_0.wav
│ ├── 1_1_0_1_0_1_0_0.wav
│ ├── 1_1_0_1_0_1_1_0.wav
│ ├── 1_1_0_1_1_0_0_1.wav
│ ├── 1_1_0_1_1_0_1_1.wav
│ ├── 1_1_0_1_1_1_1_0.wav
│ ├── 1_1_1_0_0_0_0_1.wav
│ ├── 1_1_1_0_0_1_0_1.wav
│ ├── 1_1_1_0_0_1_1_1.wav
│ ├── 1_1_1_0_1_0_1_0.wav
│ ├── 1_1_1_0_1_0_1_1.wav
│ ├── 1_1_1_1_0_0_1_0.wav
│ ├── 1_1_1_1_0_1_0_0.wav
│ ├── 1_1_1_1_1_0_0_0.wav
│ ├── 1_1_1_1_1_1_0_0.wav
│ ├── 1_1_1_1_1_1_1_1.wav
│ ├── README
│ └── README~
└── waves_yesno.tar.gz