基于瓶颈特征的藏语拉萨话连续语音识别研究——阅读笔记

我是小蔡呀～～～

已于 2022-07-03 16:37:39 修改

阅读量966

点赞数

分类专栏：文献阅读笔记文章标签：语音识别人工智能

于 2022-07-03 16:36:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/overload_/article/details/125581278

版权

文献阅读笔记专栏收录该内容

11 篇文章

订阅专栏

摘要

基于从深度神经网络提取的 瓶颈特征 具有语音长时相关性和紧凑表示的特点，将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中，可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明，瓶颈特征的复合特征取得比深度神经网络 后验特征 和单瓶颈特征更好的识别表现。

传统的语音识别模型采用MFCC特征对GMM-HMM进行建模，其具有完善的理论知识体系，训练效率高，但由于每帧的MFCC特征通常只包含毫秒级的语音信号，信息量不足，容易受噪声污染，抗噪能力很弱。

本文采用瓶颈特征及其MFCC复合特征的藏语连续语音识别技术，验证瓶颈特征在藏语大词汇量连续语音识别中的有效性。

瓶颈特征提取

提取BN特征需要先训练一个DNN神经网络：
step1 运用对比散度算法，训练受限玻尔兹曼机（RBM），得到参数；
step2将第一层输出作为第二次的输入，训练第二次RBM，得到第二层的参数，重复step2，直到达到所需深度；
step3采用有监督的训练算法，利用误差反向传播算法来优化参数。

BN层的结点比其他隐层少，在DNN训练完成后，将BottleNeck层的网络参数取出作为后续建模的瓶颈特征。

在这里插入图片描述

瓶颈复合特征

声学复合特征：将非短时差异特征与传统短时特征拼接后形成的新特征参数。

本文将DNN提取具有长时性的39维瓶颈特征与传统的39维MFCC特征复合成78维的高维特征参数，通过LDA进行降维，降维后的39维特征参数用于GMM-HMM声学模型。

藏语拉萨话因素集合

藏语有三种方言：卫藏、康巴和安多，三者书面语相同，发音不同。
藏语属于拼音文字，音节是藏语的基本单位，由一个或几个因素按一定的规律组合而成，音节之间用音节符（“·”）分隔。
藏文的一个音节内的书写有竖向叠加，称为“叠加书写”，叠加书写结构中以一个辅音字母为中心位置，将字母分为“前加字”、“上加字”、“下加字”、“后加字”和“再后加字”，中心位置的辅音字母称为“基字”。
音节=前加字+不带元音的基字丁+下加字+原因+后加字+再后加字

评价指标

音节错误率（WER）
$\frac{I+D+S}{N}$
设N为测试文本中词的数量，I为插入词个数，D为删除词个数，S为替代词个数。

我是小蔡呀～～～

博客等级

码龄6年

44
原创

53
点赞

203
收藏

406
粉丝

关注

私信

热门文章

分类专栏

最新评论

【论文精度】ViT(AN IMAGE IS WORTH 16*16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE)
CSDN-Ada助手: 非常棒的分享！ViT这个模型确实在图像识别领域有很大的用途。希望你能继续分享更多的深度学习领域的技术和想法。如果你需要一个建议的话，我建议你可以写一篇关于“GPT-3”的博客，它是一款使用了自然语言处理和深度学习的神经网络模型，它的作用是生成人工智能的语言。它的开发公司Open AI宣称它是史上最强大的自然语言处理AI，这个话题非常有趣和有价值，期待你的分享！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
DenseNet与ResNet
小余要努力: 支持原创好文，望回关
【论文精度（李沐老师）】Generative Adversarial Nets
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN月度精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/615017725。
【论文精读（李沐老师）】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN一周精选】榜单，全部的排名请看 https://bbs.csdn.net/topics/614690782。
【论文精读（李沐老师）】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/614567934。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

我是小蔡呀～～～ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。