2017年09月_wxb_blog

09月

原创 Kaldi-Timit 训练

Kaldi-Timit 训练背景这篇博客主要记录使用Kaldi和Timit数据集训练模型的过程以及遇到的问题及解决方法。Timit数据介绍制作方Timit是几个研究机构联合收集的，文本材料由Massachusetts Institude of Technology(MIT)、Stanford Research Institude(SRI)和Texas Instruments(TI)共同完成；语

2017-09-24 16:05:38 1736

原创 CUDA矩阵乘法

CUDA矩阵乘法背景大多数情况下，我们是不需要自己去实现矩阵乘法的，因为Nvidia提供了cuda版的cublas库，我们利用库函数就可以搞定。但是，总会有些情况下，我们需要实现自己的矩阵乘法。这里我们要实现的是自己的cublasSgemm函数。cublasSgemm介绍cublasSgemm函数的功能可以用如下的公式表示： α∗op(A)op(B)+β∗C,α和β是标量，其余是矩阵，op表

2017-09-23 13:41:02 2719

原创 Kaldi特征提取之-VAD

Kaldi特征提取之-VAD背景VAD即 Voice Activity Detection，用于检测静音和非静音。通过使用VAD，我们可以找到有效语音段，剔除静音段，在语音识别等过程中可以大大减少要处理的数据量。VAD通常有多种方法，简单的如帧能量或者帧幅度，复杂的还可以用神经网络。下图是一段语音的波形图，VAD可以将图中红色框内的地方剔除。VAD检测注意：以下所有方法都以帧为单位进行，帧长

2017-09-23 10:17:12 11527 2

原创 Kaldi特征提取之-MFCC

Kaldi特征提取之-MFCC背景提取MFCC特征资料参考

2017-09-21 20:51:44 5197

原创 Kaldi特征提取之-FBank

Kaldi特征提取之-预处理背景人耳对声音频谱的响应是非线性的，经验表明：如果我们能够设计一种前端处理算法，以类似于人耳的方式对音频进行处理，可以提高语音识别的性能。FilterBank分析就是这样的一种算法。FBank特征提取要在预处理之后进行，这时语音已经分帧，我们需要逐帧提取FBank特征。提取FBank特征傅里叶变换我们分帧之后得到的任然是时域信号，为了提取FBank特征，首先需要

2017-09-21 10:04:28 24980 2

原创 Kaldi特征提取之-预处理

Kaldi特征提取之-预处理背景本质上语音信号是一维的时间信号，随时间上下波动。现实中，人们再说话时会受到各种音素的干扰，为了进一步进行处理，我们必须进行必要的预处理以便之后的特征提取。诸如FBank，MFCC，PLP等都需要经过预处理步骤。本章将假设语音的格式为wav。预处理整个预处理过程如下图所示：分帧从图中可以看出我们需要将不定长的音频切分成固定长度的小段，这一步称为分帧。分帧的原

2017-09-20 15:11:16 4334