- 博客(6)
- 资源 (16)
- 收藏
- 关注
原创 Kaldi-Timit 训练
Kaldi-Timit 训练背景这篇博客主要记录使用Kaldi和Timit数据集训练模型的过程以及遇到的问题及解决方法。Timit数据介绍制作方Timit是几个研究机构联合收集的,文本材料由Massachusetts Institude of Technology(MIT)、Stanford Research Institude(SRI)和Texas Instruments(TI)共同完成;语
2017-09-24 16:05:38 1736
原创 CUDA矩阵乘法
CUDA矩阵乘法背景大多数情况下,我们是不需要自己去实现矩阵乘法的,因为Nvidia提供了cuda版的cublas库,我们利用库函数就可以搞定。但是,总会有些情况下,我们需要实现自己的矩阵乘法。这里我们要实现的是自己的cublasSgemm函数。cublasSgemm介绍cublasSgemm函数的功能可以用如下的公式表示: α∗op(A)op(B)+β∗C,α和β是标量,其余是矩阵,op表
2017-09-23 13:41:02 2719
原创 Kaldi特征提取之-VAD
Kaldi特征提取之-VAD背景VAD即 Voice Activity Detection, 用于检测静音和非静音。通过使用VAD,我们可以找到有效语音段,剔除静音段,在语音识别等过程中可以大大减少要处理的数据量。VAD通常有多种方法,简单的如帧能量或者帧幅度,复杂的还可以用神经网络。下图是一段语音的波形图,VAD可以将图中红色框内的地方剔除。VAD检测注意:以下所有方法都以帧为单位进行,帧长
2017-09-23 10:17:12 11527 2
原创 Kaldi特征提取之-FBank
Kaldi特征提取之-预处理背景人耳对声音频谱的响应是非线性的,经验表明:如果我们能够设计一种前端处理算法,以类似于人耳的方式对音频进行处理,可以提高语音识别的性能。FilterBank分析就是这样的一种算法。FBank特征提取要在预处理之后进行,这时语音已经分帧,我们需要逐帧提取FBank特征。提取FBank特征傅里叶变换 我们分帧之后得到的任然是时域信号,为了提取FBank特征,首先需要
2017-09-21 10:04:28 24980 2
原创 Kaldi特征提取之-预处理
Kaldi特征提取之-预处理背景本质上语音信号是一维的时间信号,随时间上下波动。现实中,人们再说话时会受到各种音素的干扰,为了进一步进行处理,我们必须进行必要的预处理以便之后的特征提取。诸如FBank,MFCC,PLP等都需要经过预处理步骤。本章将假设语音的格式为wav。预处理整个预处理过程如下图所示:分帧 从图中可以看出我们需要将不定长的音频切分成固定长度的小段,这一步称为分帧。分帧的原
2017-09-20 15:11:16 4334
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人