基于瓶颈特征的藏语拉萨话连续语音识别研究——阅读笔记

摘要

基于从深度神经网络提取的 瓶颈特征 具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征的复合特征取得比深度神经网络 后验特征 和单瓶颈特征更好的识别表现。

传统的语音识别模型采用MFCC特征对GMM-HMM进行建模,其具有完善的理论知识体系,训练效率高,由于每帧的MFCC特征通常只包含毫秒级的语音信号,信息量不足,容易受噪声污染,抗噪能力很弱。

本文采用瓶颈特征及其MFCC复合特征的藏语连续语音识别技术,验证瓶颈特征在藏语大词汇量连续语音识别中的有效性。

瓶颈特征提取

提取BN特征需要先训练一个DNN神经网络:
step1 运用对比散度算法,训练受限玻尔兹曼机(RBM),得到参数;
step2将第一层输出作为第二次的输入,训练第二次RBM,得到第二层的参数,重复step2,直到达到所需深度;
step3采用有监督的训练算法,利用误差反向传播算法来优化参数。

BN层的结点比其他隐层少,在DNN训练完成后,将BottleNeck层的网络参数取出作为后续建模的瓶颈特征。

在这里插入图片描述

瓶颈复合特征

声学复合特征:将非短时差异特征与传统短时特征拼接后形成的新特征参数。

本文将DNN提取具有长时性的39维瓶颈特征与传统的39维MFCC特征复合成78维的高维特征参数,通过LDA进行降维,降维后的39维特征参数用于GMM-HMM声学模型。

藏语拉萨话因素集合

藏语有三种方言:卫藏、康巴和安多,三者书面语相同,发音不同。
藏语属于拼音文字,音节是藏语的基本单位,由一个或几个因素按一定的规律组合而成,音节之间用音节符(“·”)分隔。
藏文的一个音节内的书写有竖向叠加,称为“叠加书写”,叠加书写结构中以一个辅音字母为中心位置,将字母分为“前加字”、“上加字”、“下加字”、“后加字”和“再后加字”,中心位置的辅音字母称为“基字”。
音节=前加字+不带元音的基字丁+下加字+原因+后加字+再后加字

评价指标

音节错误率(WER)
W E R = I + D + S N WER= \frac{I+D+S}{N} WER=NI+D+S
设N为测试文本中词的数量,I为插入词个数,D为删除词个数,S为替代词个数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我是小蔡呀~~~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值