语音识别系统原理介绍-----dnn-hmm

最新推荐文章于 2024-02-10 18:17:29 发布

daodao0704

最新推荐文章于 2024-02-10 18:17:29 发布

阅读量2.3k

点赞数

分类专栏： speech recognition

speech recognition 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

最近看到一个ASR的课程，很不错吧。网址：http://www.inf.ed.ac.uk/teaching/courses/asr/。大家有时间可以去看下……

接下来就开始说dnn-hmm系统吧。所谓的这个就是把之前gmm这部分换成dnn，基于这个我们可以认为，深度学习模型可以更好的去模拟我们的语音信号吧。先上个总图吧：

看到这个图大家应该都可以很清楚地去理解了。下面分开介绍：

1.特征部分：一般在深度学习系统里用Filter bank 作为特征，这个就是在做MFCC时去掉最后二步。在论文里说，这样得到的效果比MFCC效果好几个点吧。具体的稍后贴图 (右图）。见文章：RECENT ADVANCES IN DEEP LEARNING FOR SPEECH RESEARCH AT MICROSOFT。

此外，有些人在研究其他的特征，最多的就是bottleneck feature.这个现在很多人在研究，寻找一个很多的特征，肯定会使我们最后的识别率得到提高吧。至于这个 bottleneck feature,稍后贴出几篇文章。

2.dnn部分：至于深度学习，相信了解的人都知道：从最初的bp算法，到现在的rbm，dbn，cnn，rnn等等模型。当然，注意的是，语音不在像图像，在做第一个rbm时应该用 grbm。我们应该用连续的就是高斯了来做这个假设。下面还是继续贴图：

这里的大概是以dbn为框架的，其他的就可以以此类推。具体的实现可以参考kaldi里的nnet2这部分，在rm和wsj数据上的。

3.hmm部分：这部分跟gmm-hmm一样。还是弄一个图：

最后，上面的右图就是bottleneck feature的示意图。

就这样，似乎不是很好的去理解吧。大家多实践，多看代码。希望对你有用……

最近一样在看用深度学习模型去学习特征，然后用于分类或者识别吧。只是为了用到语音里，也希望用到毕设里，这里附上一个链接：http://www.liacs.nl/~dmus/api2011.html。主要内容是: to use Deep Belief Networks to learn a feature hierarchy from unlabeled speech data.

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。