Kaldi的delta特征

最新推荐文章于 2022-01-12 15:30:33 发布

weixin_30664539

最新推荐文章于 2022-01-12 15:30:33 发布

阅读量395

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/JarvanWang/p/7499609.html

版权

Delta特征是将mfcc特征(13维)经过差分得到的

它是做了一阶二阶的差分

提取的mfcc特征是13维的

然后通过delta就变成了39维

一阶差分：

D(P(t))=P(t)-P(t-1)

二阶差分：

D(D(P(t)))=(P(t)-P(t-1))-(P(t-1)-P(t-2))

Delta=Δ=差分

在

voxforge/s5/run.sh:116

rm/s5/run.sh:80

vystadial_cz/s5/run.sh:82

都注释了下一行的训练使用delta+delta-delta特征

在这之前，都运行了

steps/align_si.sh --nj "$train_nj" --cmd "$train_cmd" \

--use-graphs true <data-dir> <lang-dir> <src-dir> <align-dir>

"--use-graphs=true"意思是，使用 <src-dir>中的train graph(在fsts.JOB.gz中)

如果不加上，则默认"use-graphs=false"，即用<src-dir>中的tree, final.mdl输入搭配compile-train-graph中生成训练的fst(train graph)

steps/train_deltas.sh是训练一个delta+delta-delta三音素系统（模型）

steps/align_si.sh对delta特征进行apply-cmvn, add-deltas

对lda特征进行apply-cmvn, splice-feats（可选）, 用final.mat进行transform-feats

delta特征与splice特征的区别

2017/5/20 16:23

[chick](616310753) 16:09:17

delte是显式给出差分

splice是在时间上作扩展

包含了差分信息

但是不是显式给出的，在学习中可能学习不到差分知识，可能学习到别的知识

语音研究生求南(287568706) 16:09:58

delta是同一帧复制多次吗？

[chick](616310753) 16:10:11

上一帧-当前帧

语音识别原理介绍_V1.3_1034.pdf

分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取 MFCC 特征，把每一帧波形变成一个12维向量。这12个点是根据人耳的生理特性提取的，可以理解为这12个点包含了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中，这一步有很多细节，比如差分、均值方差规整、高斯化、降维去冗余等，声学特征也不止有 MFCC 这一种，具体就不详述了。

转载于:https://www.cnblogs.com/JarvanWang/p/7499609.html

weixin_30664539

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。