基于kaldi的CVTE模型研究

最新推荐文章于 2023-09-30 19:41:58 发布

benbenls

最新推荐文章于 2023-09-30 19:41:58 发布

阅读量856

点赞数

分类专栏：语音识别

本文链接：https://blog.csdn.net/benbenls/article/details/102691710

版权

语音识别专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文目的在于研究cvte模型及其工作原理，
CVTE Mandarin Model：普通话模型
kaldi版本：5.1
model type：Chain，TDNN（Time delay neural network）
WER：8.25% on thch30 test set
工作环境：Ubuntu 16.04

CVTE模型结构
数据准备需要uut2spk、text、wav.scp，这几个文件是需要手动创建的文件
L.fst是FST形式的发音字典

数据准备：为了方便将我们自己的数据应用在kaldi上，我们应该如何设置自己数据的格式，主要涉及到一些word.txt，音素，语言模型等方面
特征提取：MFCC和PLP（感知线性预测系数）的计算和基本配置
概率密度函数（PDF，高斯混合模型）

CVTE模型：
版权所有2017- CVTE（http://www.cvte.com）
77; 20003; 0作者：雷艳强
电子邮件：leiyanqiang@cvte.com
QQ：415198468
该存档由CVTE提供，包含以下功能：
1）声学模型(chain,tdnn)用几个小时和数小时数据训练;
2）支持在线cmvn，因为在培训期间使用“apply-cmvn-online”;
3）3-gram LM model训练1000 GB文本;
4）它由2017年5月2日由卡尔迪的主分公司创建。
这个档案中的文件：
1）你应该在kaldi的egs /目录下解压缩这个;
2）创建软链接，即s5 / steps，s5 / utils和s5 / local / score.sh;
3）“conf”包含用于特征提取的fbank.conf;
4）“数据”包含十个测试话语;
5）“exp / chain / tdnn”包含模型;
一些结果：
CVTE201701（1000 utts）：ppl 340; CER：4.55％
CVTE201703（10000 utts）：pp1313; CER：4.5％
CVTE201705（5000 utts）：ppl 200; CER：15.7％
CVTE201705_02（7000 utts）：ppl 1000+; CER：5.58％
THCHS30（2496 utts）：ppl 2000+; CER：8.25％
注意：CVTE201705是一款非常具有挑战性的测试装置，具有各种噪音和强烈的重音，其他CVTE套装全部由手机或高性能话筒通过标准普通话在办公室或安静房间录制。
如何使用：
使用这些模型非常容易，您可以参考s5 /目录中的“run.sh”