kaldi数据准备部分,文件解释

本文详细介绍了Kaldi项目中数据准备阶段的"lang"目录,包括"text"、"wav.scp"、"utt2spk"和"spk2utt"等文件的作用。特别强调了"lang"目录下的phones.txt、words.txt和L.fst等文件,它们作为符号表和发音字典,在语音识别系统中的关键角色。phones.txt定义音素,words.txt存储词汇,oov.txt处理未知词,而L.fst则表示FST形式的发音字典。
摘要由CSDN通过智能技术生成

若想用已识别的系统对你的数据解码,要重写 “数据部分”.
直接以thchs30项目为例

里面或许会有

cmvn.scp  feats.scp  reco2file_and_channel  segments  spk2utt  text  utt2spk  wav.scp

文件”text” :包含每段语音的文字意思
这里写图片描述

每行的第一项是录音编号(utterance-id),

发音编号后面跟着的 是每段录音的标注。


文件wav.scp

这个文件的格式是

<recording-id> <extended-filename>

这里写图片描述

大家可以理解为是一段提取wav格式文件的命令。


文件”utt2spk”与”spk2utt”

spk2utt文件格式是:

<speak
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值