kaldi数据准备部分,文件解释 thcs30

转自:http://blog.csdn.net/dzp443366/article/details/54094950


若想用已识别的系统对你的数据解码,要重写 “数据部分”. 
直接以thchs30项目为例

里面或许会有

cmvn.scp  feats.scp  reco2file_and_channel  segments  spk2utt  text  utt2spk  wav.scp

 
 
  • 1
  • 2

文件”text” :包含每段语音的文字意思 
这里写图片描述

每行的第一项是录音编号(utterance-id),

发音编号后面跟着的 是每段录音的标注。


文件wav.scp

这个文件的格式是

<recording-id> <extended-filename>

 
 
  • 1
  • 2

这里写图片描述

大家可以理解为是一段提取wav格式文件的命令。


文件”utt2spk”与”spk2utt”

spk2utt文件格式是:

<speaker-id> <utterance-id1> 

 
 
  • 1
  • 2

这里写图片描述
解释:以第一行为例,讲话者为B34 他讲了B34_251 B34_254 接下来每一行如此类推

utt2spk文件格式是(spk2utt相反):

<utterance-id1> <speaker-id> 

 
 
  • 1
  • 2

这里写图片描述


数据准备– “lang”目录

现在我们关注一下数据准备的“lang”这个目录。 
进入lang目录

s5# ls data/lang
L.fst  L_disambig.fst  oov.int    oov.txt  phones  phones.txt  topo  words.txt

 
 
  • 1
  • 2
  • 3

ps:请把phone翻译为音素 

首先是有文件phones.txt和words.txt。这些都是符号表(symbol-table)文件,符合OpenFst的格式定义。其中每一行首先是一个文本项,接着是一个数字项: 
phones.txt 
这里写图片描述

words.txt 
这里写图片描述 
SPOKEN_NOISE 是噪音 

文件lang/oov.txt仅仅只有一行: 
s5# cat lang/oov.txt 
<SPOKEN_NOISE>
 
在训练过程中,所有词汇表以外的词都会被映射为这个词(噪音)

在Kaldi中,这些文件被用于在这些音素符号的文本形式和数字形式之间进行转换。 大多数情况下,只有脚本utils/int2sym.pl、utils/sym2int.pl和OpenFst中的程序fstcompile和fstprint会读取这些文件。

文件L.fst是FST形式的发音字典


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值