拟解决问题:把aishell-2的分为不同的test、validation、train集。比例为1:1:8.
aishell数据目录结构为:AISHELL-2/data/wav/speaker_id/*.wav.(speaker_id 的文件共1992个,每个speaker_id下有500左右的wav文件)。
实现代码:
for i in `ls /work/data/record/user39/`;do
echo $i
mkdir ./$i/testing ./$I/training ./$I/validation
mv ./$i/*3.wav ./$i/testing/
mv ./$i/*4.wav ./$i/validation/
mv ./*.wav. ./$i/training/
done