摘要
基于从深度神经网络提取的 瓶颈特征 具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征的复合特征取得比深度神经网络 后验特征 和单瓶颈特征更好的识别表现。
传统的语音识别模型采用MFCC特征对GMM-HMM进行建模,其具有完善的理论知识体系,训练效率高,但由于每帧的MFCC特征通常只包含毫秒级的语音信号,信息量不足,容易受噪声污染,抗噪能力很弱。
本文采用瓶颈特征及其MFCC复合特征的藏语连续语音识别技术,验证瓶颈特征在藏语大词汇量连续语音识别中的有效性。
瓶颈特征提取
提取BN特征需要先训练一个DNN神经网络:
step1 运用对比散度算法,训练受限玻尔兹曼机(RBM),得到参数;
step2将第一层输出作为第二次的输入,训练第二次RBM,得到第二层的参数,重复step2,直到达到所需深度;
step3采用有监督的训练算法,利用误差反向传播算法来优化参数。
BN层的结点比其他隐层少,在DNN训练完成后,将BottleNeck层的网络参数取出作为后续建模的瓶颈特征。
瓶颈复合特征
声学复合特征:将非短时差异特征与传统短时特征拼接后形成的新特征参数。
本文将DNN提取具有长时性的39维瓶颈特征与传统的39维MFCC特征复合成78维的高维特征参数,通过LDA进行降维,降维后的39维特征参数用于GMM-HMM声学模型。
藏语拉萨话因素集合
藏语有三种方言:卫藏、康巴和安多,三者书面语相同,发音不同。
藏语属于拼音文字,音节是藏语的基本单位,由一个或几个因素按一定的规律组合而成,音节之间用音节符(“·”)分隔。
藏文的一个音节内的书写有竖向叠加,称为“叠加书写”,叠加书写结构中以一个辅音字母为中心位置,将字母分为“前加字”、“上加字”、“下加字”、“后加字”和“再后加字”,中心位置的辅音字母称为“基字”。
音节=前加字+不带元音的基字丁+下加字+原因+后加字+再后加字
评价指标
音节错误率(WER)
W
E
R
=
I
+
D
+
S
N
WER= \frac{I+D+S}{N}
WER=NI+D+S
设N为测试文本中词的数量,I为插入词个数,D为删除词个数,S为替代词个数。