kaldi数据准备脚本学习(以AISHELL的数据准备为例)
原始代码块如下所示:
#!/bin/bash
# Copyright 2017 Xingyu Na
# Apache 2.0
# 导入一些执行本脚本必须的环境变量
. ./path.sh || exit 1;
# 如果输入参数不是两个,那么弹出本脚本的使用方法
if [ $# != 2 ]; then
echo "Usage: $0 <audio-path> <text-path>"
echo " $0 /export/a05/xna/data/data_aishell/wav /export/a05/xna/data/data_aishell/transcript"
exit 1;
fi
# 将第一个参数(utterances的路径)赋予变量aishell_audio_dir
aishell_audio_dir=$1
# 将utterances对应的抄本的路径赋予aishell_text
aishell_text=$2/aishell_transcript_v0.8.txt
# 设置训练、验证、测试集文件路径
train_dir=data/local/train
dev_dir=data/local/dev
test_dir=data/local/test
tmp_dir=data/local/tmp
# 创建训练、验证、测试集文件路径
mkdir -p $train_dir
mkdir -p $dev_dir
mkdir -p $test_dir
mkdir -p $tmp_dir
# 检查原始数据路径
# data directory check
if [ ! -d $aishell_audio_dir ] || [ ! -f $aishell_text ]; then
echo "Error: $0 requires two directory ar