rnn中文语音识别java_使用MFCC和RNN的简单语音识别

最新推荐文章于 2024-01-09 00:56:16 发布

友枝枝

最新推荐文章于 2024-01-09 00:56:16 发布

阅读量1.2k

点赞数 1

文章标签： rnn中文语音识别java

本文链接：https://blog.csdn.net/weixin_42509815/article/details/114856799

版权

本文介绍了使用MFCC和RNN进行中文语音识别的方法。通过Python库librosa提取MFCC特征，利用TensorFlow构建简单的RNN模型进行训练。文章包含特征提取、模型构建及训练过程，探讨了训练过程中遇到的问题和可能的原因。

摘要由CSDN通过智能技术生成

Post Views:

4,213

去年研究了一段时间的语音识别，出于一些功耗的考虑，主要精力还是放在了Spinx这个传统方法的实现上。HMM方法的局限性还是挺明显的，如今语音识别的先进技术基本都是基于DNN的。而RNN更是非常适合语音这种序列的处理。前面在github上偶然发现了一个语音识别的学习项目，里面提供了一些标定过的语音数据，同时也实现了一些demo性质的代码。不过，这个项目作者对TensorFlow进行了一些封装，导致代码有一点绕，其实是不利于初学者学习的。所以，我就想使用原生的TensorFlow api实现个简单的语音识别程序。

说实话，我对RNN也没有多深入的理解，所以这里也就不深究原理了。仅仅从直观的角度来讲，RNN的结构反应了序列的顺序关系，所以RNN对序列模型有这很好的描述能力。在《Deep Learning with tensorflow》这本书里，使用了RNN实现MNIST数据集的分类模型训练。MNIST数据集虽然是一个图片数据集，但如果我们把一行像素看做一个输入向量，而这些行向量按照顺序就会形成一个序列。经过实验，我们可以发现，RNN也可以很好的完成MNIST数据的分类。

1. 语音特征提取

语音特征提取的方法中，MFCC(梅尔频率倒谱系数)大概是最常见的了。简单说来，MFCC就是一个短时的频域特征。在Python中，我们可以很简单的使用librosa这个库实现MFCC特征的提取。MFCC特征的提取过程如下图所示，首先语音信号按照时间分割成多段；然后对每段信号进行快速傅里叶变换，变换之后可以得到一个频谱图；依据频谱图的能量包络线，对这个能量包络线进行离散化，即可得到一个向量。这个向量便是MFCC向量。

最低0.47元/天解锁文章

友枝枝

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫