Kaldi
文章平均质量分 92
wxb_blog
语音识别算法工程师
展开
-
Kaldi特征提取之-VAD
Kaldi特征提取之-VAD背景VAD即 Voice Activity Detection, 用于检测静音和非静音。通过使用VAD,我们可以找到有效语音段,剔除静音段,在语音识别等过程中可以大大减少要处理的数据量。VAD通常有多种方法,简单的如帧能量或者帧幅度,复杂的还可以用神经网络。下图是一段语音的波形图,VAD可以将图中红色框内的地方剔除。VAD检测注意:以下所有方法都以帧为单位进行,帧长原创 2017-09-23 10:17:12 · 11462 阅读 · 2 评论 -
Kaldi-Timit 训练
Kaldi-Timit 训练背景这篇博客主要记录使用Kaldi和Timit数据集训练模型的过程以及遇到的问题及解决方法。Timit数据介绍制作方Timit是几个研究机构联合收集的,文本材料由Massachusetts Institude of Technology(MIT)、Stanford Research Institude(SRI)和Texas Instruments(TI)共同完成;语原创 2017-09-24 16:05:38 · 1708 阅读 · 0 评论 -
Kaldi特征提取之-预处理
Kaldi特征提取之-预处理背景本质上语音信号是一维的时间信号,随时间上下波动。现实中,人们再说话时会受到各种音素的干扰,为了进一步进行处理,我们必须进行必要的预处理以便之后的特征提取。诸如FBank,MFCC,PLP等都需要经过预处理步骤。本章将假设语音的格式为wav。预处理整个预处理过程如下图所示:分帧 从图中可以看出我们需要将不定长的音频切分成固定长度的小段,这一步称为分帧。分帧的原原创 2017-09-20 15:11:16 · 4307 阅读 · 0 评论 -
Kaldi特征提取之-FBank
Kaldi特征提取之-预处理背景人耳对声音频谱的响应是非线性的,经验表明:如果我们能够设计一种前端处理算法,以类似于人耳的方式对音频进行处理,可以提高语音识别的性能。FilterBank分析就是这样的一种算法。FBank特征提取要在预处理之后进行,这时语音已经分帧,我们需要逐帧提取FBank特征。提取FBank特征傅里叶变换 我们分帧之后得到的任然是时域信号,为了提取FBank特征,首先需要原创 2017-09-21 10:04:28 · 24797 阅读 · 2 评论 -
Kaldi特征提取之-MFCC
Kaldi特征提取之-MFCC背景提取MFCC特征资料参考原创 2017-09-21 20:51:44 · 5116 阅读 · 0 评论