使用kaldi的DNN做音频分类,异常声音检测。
基本上沿用语音识别的思路,有两点注意一下即可。
1. 在训HMM/GMM时,训到monophone即可,使用monophone的HMM与alignment来训DNN
2.语言模型的准备,手动构造一个一元的简单模型即可
DNN的主要训练步骤如下:
#Step 1. Pre-train DBN
steps/nnet/pretrain_dbn.sh
--cmvn-opts "--norm-means=true --norm-vars=true" // 均值方差归一化
--delta-opts "--delta-order=2"// 差分特征
--splice 5
--nn_depth 3 // 隐含层的个数
--hid-dim 256// 隐层节点数
--rbm-iter 8 // 迭代次数
$train $dir
# Step2:Train the DNN optimizing per-frame cross-entropy
steps/nnet/train.sh
--feature-transform $feature_transform
--dbn