在学习脚本文件时,重点关注哪些是调用标准函数,哪些是调用特定数据集的数据处理函数;
关注每个阶段处理的输入,输出和控制参数。不要面面俱到,试图理解每行代码。
1. 下载AMI数据集的xml标注文件包;
从xml格式的标注文件提取得到data/local/annotations文件夹下文本格式的标注文件train.txt,eval.txt,dev.txt.
# Download of annotations, pre-processing,
local/ami_text_prep.sh data/local/downloads
2. 下载cmu dictionary;
创建silence_phones.txt和optional_silence.txt;
从cmudict/cmudict.0.7a.symbols提取 nonsilence_phones.txt,扔掉重音(stress);
将silence phones 加到extra_questions.txt;
下载wordlist.50k;
limit the vocabulary to the predefined 50k words,从而得到文件lexicon1_raw_nosil_50k.txt;
再增加类似laughter,noise等词汇后得到最终的lexicon.txt;
utils/validate_dict_dir.pl检查。