kaldi数据准备部分,文件解释

最新推荐文章于 2023-06-28 15:40:46 发布

dzp443366

最新推荐文章于 2023-06-28 15:40:46 发布

阅读量4.1k

点赞数 3

分类专栏： kaldi

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dzp443366/article/details/54094950

版权

本文详细介绍了Kaldi项目中数据准备阶段的"lang"目录，包括"text"、"wav.scp"、"utt2spk"和"spk2utt"等文件的作用。特别强调了"lang"目录下的phones.txt、words.txt和L.fst等文件，它们作为符号表和发音字典，在语音识别系统中的关键角色。phones.txt定义音素，words.txt存储词汇，oov.txt处理未知词，而L.fst则表示FST形式的发音字典。

摘要由CSDN通过智能技术生成

若想用已识别的系统对你的数据解码，要重写 “数据部分”.
直接以thchs30项目为例

里面或许会有

cmvn.scp  feats.scp  reco2file_and_channel  segments  spk2utt  text  utt2spk  wav.scp

文件”text” :包含每段语音的文字意思
这里写图片描述

每行的第一项是录音编号（utterance-id），

发音编号后面跟着的是每段录音的标注。

文件wav.scp

这个文件的格式是

<recording-id> <extended-filename>

这里写图片描述

大家可以理解为是一段提取wav格式文件的命令。

文件”utt2spk”与”spk2utt”

spk2utt文件格式是:

<speak

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。