Kaldi 使用，egs下通用样例及功能小结（很硬，慎入）

最新推荐文章于 2023-02-09 18:00:29 发布

云生风

最新推荐文章于 2023-02-09 18:00:29 发布

阅读量3.8k

点赞数 13

分类专栏： kaldi学习

本文链接：https://blog.csdn.net/c12345678999/article/details/106373096

版权

本文详细介绍了Kaldi中的语音识别和声纹识别技术，包括样例应用、关键术语解释以及训练流程。涉及语言模型（LM）、MFCC特征、GMM-HMM模型、说话人自适应（SAT）、声道长度归一化（VTLN）等关键技术。在语音识别中，讲解了数据增强、特征提取和训练策略，如CE、MMI/BMMI、MPE和sMBR。声纹识别部分则涵盖了ivector和xvector特征，以及ubm、lda/plda和聚类方法。

摘要由CSDN通过智能技术生成

样例表

egs下的样例	数据源，功能	用到的相关工具
aidatatang_200zh/s5	数据堂200h中文开源数据，用于语音识别	LM+MFCC+Mono+Triphone(tri1:deltas;tri2:delta+delta-delta;tri3a:lda+mllt)+fMLLR+SAT+TDNN
aishell/v1	openslr33数据，声纹识别	MFCC+UBM+PLDA
aishell/s5	openslr33数据，语音识别	LM+MFCC+Mono+Triphone+fMLLR+SAT+TDNN
aishell2/s5	aishell2，语音识别	LM + GMM-HMM(MFCC+Mono+Triphone)+TDNN
ami/s5/run_ihm.sh	----，语音识别	IHM(independent headset microphone): LM+MFCC+Mono+Triphone+tri4a(LDA+MLLT+SAT)+DNN+TDNN;
ami/s5/run_mdm.sh	----，语音识别	MDM(multiple distant microphone): LM+MFCC+Mono+Triphone+SAT+MMI+DNN(dnn+lad+mllt)+TDNN;
ami/s5/run_sdm.sh	----，语音识别	SDM(single distant microphone): LM+MFCC+Mono+Triphone+SAT+MMI+DNN(dnn+lad+mllt)+TDNN
ami/s5b	----，语音识别	LM+MFCC+tri1(deltas)+tri2(lda+mllt)+tri3(lda+mllt+sat)+tdnn
an4/s5	AN4，语音识别	LM+MFCC+tri1(deltas)+tri2(lda+mllt)+tri3(lda+mllt+sat)
apiai_decode/s5	16Hz数据，只有解码，没有训练模型	略
aspire/s5	corpora3/LDC/LDC2005T19，corpora3/LDC/LDC2004S13，corpora3/LDC/LDC2005S13，语音识别	LM+MFCC+CMVN+Mono+Triphone+fMLLR+SAT+build_silprob.sh+TDNN+TDNN_SLTM
aurora4/s5	corpora5/LDC/LDC93S6B，corpora5/AURORA，语音识别	MFCC+tri1(deltas)+tri2(deltas)+tri2b(lda_mllt)+tri3b(lda+mllt+sat)+TDNN
babel/s5		run有点多，挑有特点的写，plp+pitch+feats+(ffv)+mono+tri1+tri2+tri3(deltas)+tri4(lda_mllt)+sat+SGMM(fmllr+ubm+sgmm)+MMI
bentham/v1/run_end2end.sh	corpora5/handwriting_ocr/hwr1/ICDAR-HTR-Competition-2015，图像识别，OCR识别，端到端识别	features+cmvn+lm+e2e_cnn
bn_music_speech/v1/	corpora5/LDC/LDC97S44，corpora/LDC/LDC97T22，音乐语音识别	MFCC+UBM+vad_GMM
callhome_diarization/v1	swbd，家庭电话的声纹识别	MFCC+VAD+UBM+PLDA+Cluster
callhome_diarization/v2/	swbd，家庭电话的声纹识别	xvector+vad+数据增强+mfcc+plda+cluster+diag(ubm)+VB
callhome_egyptian/s5	略，语音识别	mfcc+cmvn+mono+Triphone+sat+fmllr+tdnn
casia_hwdb/v1	corpora5/handwriting_ocr/CASIA_HWDB/Offline，端到端语音识别	略
chime1-6	略，语音识别
cifar/v1	cifar，图像识别	略
cmu_cslu_kids/s5	略，语音识别	LM+MFCC+CMVN+Mono+Triphone+MMI+Boosting+MPE+SAT+VTLN+tdnnf
cnceleb/v1	CN-Celeb dataset，声纹识别	MFCC+UBM+PLDA
commonvoice/s5	corpus v1，语音识别	LM+MFCC+Mono&#

最低0.47元/天解锁文章

云生风

关注

13
点赞
踩
36

收藏

觉得还不错? 一键收藏
0
评论
Kaldi 使用，egs下通用样例及功能小结（很硬，慎入）

样例表egs下的样例数据源，功能用到的相关工具aidatatang_200zh/s5数据堂200h中文开源数据，用于语音识别LM+MFCC+Mono+Triphone(tri1:deltas;tri2:delta+delta-delta;tri3a:lda+mllt)+fMLLR+SAT+TDNNaishell/v1openslr33数据，声纹识别(ivector)MFCC+UBM+PLDAaishell/s5openslr33数据，语音识别LM+MFCC
复制链接

扫一扫

专栏目录