Kaldi 使用,egs下通用样例及功能小结(很硬,慎入)

本文详细介绍了Kaldi中的语音识别和声纹识别技术,包括样例应用、关键术语解释以及训练流程。涉及语言模型(LM)、MFCC特征、GMM-HMM模型、说话人自适应(SAT)、声道长度归一化(VTLN)等关键技术。在语音识别中,讲解了数据增强、特征提取和训练策略,如CE、MMI/BMMI、MPE和sMBR。声纹识别部分则涵盖了ivector和xvector特征,以及ubm、lda/plda和聚类方法。
摘要由CSDN通过智能技术生成

样例表

egs下的样例 数据源,功能 用到的相关工具
aidatatang_200zh/s5 数据堂200h中文开源数据,用于语音识别 LM+MFCC+Mono+Triphone(tri1:deltas;tri2:delta+delta-delta;tri3a:lda+mllt)+fMLLR+SAT+TDNN
aishell/v1 openslr33数据 ,声纹识别 MFCC+UBM+PLDA
aishell/s5 openslr33数据 ,语音识别 LM+MFCC+Mono+Triphone+fMLLR+SAT+TDNN
aishell2/s5 aishell2,语音识别 LM + GMM-HMM(MFCC+Mono+Triphone)+TDNN
ami/s5/run_ihm.sh ----,语音识别 IHM(independent headset microphone): LM+MFCC+Mono+Triphone+tri4a(LDA+MLLT+SAT)+DNN+TDNN;
ami/s5/run_mdm.sh ----,语音识别 MDM(multiple distant microphone): LM+MFCC+Mono+Triphone+SAT+MMI+DNN(dnn+lad+mllt)+TDNN;
ami/s5/run_sdm.sh ----,语音识别 SDM(single distant microphone): LM+MFCC+Mono+Triphone+SAT+MMI+DNN(dnn+lad+mllt)+TDNN
ami/s5b ----,语音识别 LM+MFCC+tri1(deltas)+tri2(lda+mllt)+tri3(lda+mllt+sat)+tdnn
an4/s5 AN4,语音识别 LM+MFCC+tri1(deltas)+tri2(lda+mllt)+tri3(lda+mllt+sat)
apiai_decode/s5 16Hz数据,只有解码,没有训练模型
aspire/s5 corpora3/LDC/LDC2005T19,corpora3/LDC/LDC2004S13,corpora3/LDC/LDC2005S13,语音识别 LM+MFCC+CMVN+Mono+Triphone+fMLLR+SAT+build_silprob.sh+TDNN+TDNN_SLTM
aurora4/s5 corpora5/LDC/LDC93S6B,corpora5/AURORA,语音识别 MFCC+tri1(deltas)+tri2(deltas)+tri2b(lda_mllt)+tri3b(lda+mllt+sat)+TDNN
babel/s5 run有点多,挑有特点的写,plp+pitch+feats+(ffv)+mono+tri1+tri2+tri3(deltas)+tri4(lda_mllt)+sat+SGMM(fmllr+ubm+sgmm)+MMI
bentham/v1/run_end2end.sh corpora5/handwriting_ocr/hwr1/ICDAR-HTR-Competition-2015,图像识别,OCR识别,端到端识别 features+cmvn+lm+e2e_cnn
bn_music_speech/v1/ corpora5/LDC/LDC97S44,corpora/LDC/LDC97T22,音乐语音识别 MFCC+UBM+vad_GMM
callhome_diarization/v1 swbd,家庭电话的声纹识别 MFCC+VAD+UBM+PLDA+Cluster
callhome_diarization/v2/ swbd,家庭电话的声纹识别 xvector+vad+数据增强+mfcc+plda+cluster+diag(ubm)+VB
callhome_egyptian/s5 略,语音识别 mfcc+cmvn+mono+Triphone+sat+fmllr+tdnn
casia_hwdb/v1 corpora5/handwriting_ocr/CASIA_HWDB/Offline,端到端语音识别
chime1-6 略,语音识别
cifar/v1 cifar,图像识别
cmu_cslu_kids/s5 略,语音识别 LM+MFCC+CMVN+Mono+Triphone+MMI+Boosting+MPE+SAT+VTLN+tdnnf
cnceleb/v1 CN-Celeb dataset,声纹识别 MFCC+UBM+PLDA
commonvoice/s5 corpus v1,语音识别 LM+MFCC+Mono&#
  • 13
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值