根据标注区域提取需要部分的语音特征参数

这两天终于腾出时间梳理一下之前做的实验,在针对语音特征参数MFCC,做线性判别分析LDA的时候需要对每一帧MFCC打上标签,才能完成LDA的有监督学习,满足我使用LDA的变换需求。

但是一般情况下,由语音文件WAV提取的MFCC中,既包含了安静的部分,又包含了说话的部分,怎样才能提取到相应需要的部分呢,经过了几天的实验,以下是实现的方法:


第一步:对wav文件进行标注

比如文件内容中包含了孤立词“八”,然后对wav文件进行标注,保存成lab文件。如下所示:


lab文件内容如下:


第二步:使用HTK进行参数提取:

这里我们要用到HTK工具包中的HCopy工具来进行参数提取。

执行:

HCopy -T 4 -L ./data/lab -n 2 2 -C config -S word.scp

其中:

-T是用来输出信息,-T 4是用来输出的信息为:segment boundaries computed from label files

-L ./data/lab 在指定的文件夹下寻找需要提取特征参数文件的同名lab文件

-n 是按照lab文件中的标签来提取MFCC,如 -n 2 2 是表示提取第二标签 -n 1 2是表示提取第一和第二个标签等

-C config 是提取特征参数所要遵循的参数设置

word.scp是参数提取文件和保存文件的路径列表

例:我们需要提取wav中“八”部分的MFCC参数,我们需要执行命令:

HCopy -T 4 -L ./lab -n 2 2 -C config ba.wav ba.mfc

我们可以看到:



这样我们所需要的部分就提取出来了:

第三步:查看提取的MFCC

执行:HList -h -o ba.mfc > ba.txt



以上就是根据标注区域提取需要部分的语音特征参数。













一个实用的语音识别系统通常由以下几个部分组成: 1. 语音预处理:将原始语音信号进行滤波、降噪、预加重等处理,以便后续处理的顺利进行。 2. 特征提取:将预处理后的语音信号转换成一系列特征向量,作为后续模型的输入。常用的特征参数MFCC、LPCC、PLP等。 3. 建模和训练:利用已标注好的语音数据进行模型的训练,常用的模型包括隐马尔可夫模型(HMM)、深度神经网络(DNN)、循环神经网络(RNN)等。 4. 解码和后处理:将测试语音转换成特征向量序列后,利用训练好的模型进行识别,得到最终的文本结果。对于连续语音,还需要进行声学模型对齐和后处理等操作。 常用的语音特征参数包括: 1. 短时能量(Short-term energy) 2. 短时过零率(Short-term zero crossing rate) 3. 梅尔倒谱系数(Mel-frequency cepstrum coefficients,MFCC) 4. 线性预测征候系数(Linear predictive coding coefficients,LPCC) 5. 感知线性预测(Perceptual linear predictive,PLP) 动态语音特征参数是指对语音的一系列动态变化进行建模,包括一阶差分参数(delta)和二阶差分参数(delta-delta)。这些参数能够更好地反映语音信号的动态特性,提高语音识别的准确率。 提取动态语音特征参数的方法包括: 1. 差分法:对每个特征向量的相邻帧求差分,得到一阶差分参数。 2. 双向差分法:对每个特征向量的前后若干帧求差分,得到一阶差分参数和二阶差分参数。 3. 动态时间规整法(Dynamic time warping,DTW):将测试语音的特征向量序列与训练语音的模板序列进行匹配,得到一阶差分参数和二阶差分参数。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值