Kaldi IO机制的一些概念及代码流程解析

1、ark,scp概念

1.1 基本概念

  • ark : 代表以二进制方式读或写文件,archive文件,该文件一般是特征文件或人类不可读的文件。
  • scp: 代表以文本方式读或写文件,scp文件,一般人类可读。
  • Kaldi读取或写文件由对应可执行程序参数的ark/scp位置决定,此处有rspecifier和wspecifier两个概念,分别对应输入及输出。执行程序时,命令参数中首先出现的是rspecifier,后出现的是wspecifier。

在这里插入图片描述

 //读取wav.1.scp文件,输出写入到out.ark文件中
compute-fbank-feats  --verbose=2 --config=fbank.conf scp,p:wav.1.scp ark:out.ark     

1.2 、参数选项

1.2.1、输出时选项(wspecifier)

在这里插入图片描述

1.2.2、读取时选项(rspecifier)
  • (once):由用户指定随机访问方式下对每个key只获取一次。
  • p(permissive): 指导程序忽略读取文件时遇到的错误。在读取损坏的scp文件时程序的Haskey查询返回false,读取损坏或截断的archive文件时。该标志会阻止异常抛出。
  • s(sorted): 告诉程序读取文件时key是排好序的。
  • cs(called-sorted): 告诉程序HasKey函数及Value函数的调用是有序的。

在这里插入图片描述

1.2.3 管道’|'标志含义

以以下例子作为解析

nnet3-latgen-faster-parallel --num-threads=4 --frame-subsampling-factor=3 --frames-per-chunk=50 --verbose=5 --extra-left-context=0 --extra-right-context=0 --extra-left-
context-initial=-1 --extra-right-context-final=-1 --minimize=false --max-active=7000 --min-active=200 --beam=15.0 --lattice-beam=8.0 --acoustic-scale=1.0 --allow-partia
l=true --word-symbol-table=exp/chain/tdnn/graph/words.txt exp/chain/tdnn/final.mdl exp/chain/tdnn/graph/HCLG.fst 'ark,s,cs:apply-cmvn --norm-means=true --norm-vars=fals
e --utt2spk=ark:data/fbank/test/split1/1/utt2spk scp:data/fbank/test/split1/1/cmvn.scp scp:data/fbank/test/split1/1/feats.scp ark:- |' 'ark:|lattice-scale --acoustic-sc
ale=10.0 ark:- ark:- | gzip -c >exp/chain/tdnn/decode_test/lat.1.gz'

《1》、rxfilename(读取)“some command |”: 意味着一个输入数据的管道命令,Kaldi会去掉"|"然后将剩下的输入到popen函数中;

ark,s,cs:apply-cmvn --norm-means=true --norm-vars=false --utt2spk=ark:data/fbank/test/split1/1/utt2spk scp:data/fbank/test/split1/1/cmvn.scp scp:data/fbank/test/split1/1/feats.scp ark:- |

//程序会调用popen执行apply-cmvn --norm-means=true --norm-vars=false --utt2spk=ark:data/fbank/test/split1/1/utt2spk scp:data/fbank/test/split1/1/cmvn.scp scp:data/fbank/test/split1/1/feats.scp ark:-  程序,代码中体现在PipeInputImpl类的Open函数,该apply-cmvn程序的输出会被作为nnet3-latgen-faster-parallel程序的rspecifiers。

《2》、wxfilename(输出)“| some command”:意味着一个输出数据的管道命令,Kaldi会去掉"|"然后将剩下的输入到popen函数中。

ark:|lattice-scale --acoustic-scale=10.0 ark:- ark:-

//程序会调用popen执行lattice-scale --acoustic-scale=10.0 ark:- ark:- 程序,代码中体现在PipeOutputImpl类的Open函数,lattice-scale程序的输出会被作为nnet3-latgen-faster-parallel程序的wspecifiers。

原文:
在这里插入图片描述
注:"-"代表输出到标准输出或从标准输入得到数据

2、scp读写代码逻辑浅析

2.1、读取流程

以compute-fbak-feats.cc读取wav文件输出fbank特征为例:

compute-fbank-feats --verbose=2 --config=fbank.conf scp,p:wav.1.scp ark:out.ark

文件wav.1.scp内容
在这里插入图片描述
左边为唯一ID,对应代码中的key概念,右边为wav文件相对路径。

《1》、读取wav.1.scp文件的代码
SequentialTableReader reader(wav_rspecifier); 该类的初始化及文件打开流程:
因为读取的是scp文件所以impl_初始化SequentialTableReaderScriptImpl()。在这里插入图片描述
《2》、SequentialTableReaderScriptImpl类读取scp文件[kaldi-table-inl.h文件]
在这里插入图片描述
Open函数打开scp文件成功后调用Next函数,该函数中调用NextScpLine函数读取scp文件内容,每次读取一行。因为执行该程序是使用了p标志所以会去加载wav文件,对应代码逻辑如下:
在这里插入图片描述
在NextScpLine中读取到key_和wav文件名data_rxfilename_
在这里插入图片描述
EnsureObjectLoaded函数内加载wav文件数据。
在这里插入图片描述
因为模板使用的是 WaveHolder类,该类实现为二进制读取故以二进制方式打开。然后开始读取数据,一次性读入整个wav文件。

wav文件数据读取流程走完进入wav数据使用流程。

《3》、wav数据使用流程
代码中是通过for迭代依次获取每个已经读取到内存中的wav数据的。
在这里插入图片描述
在此例中reader.Key()、Next()、Value()调用对应调用的是SequentialTableReaderScriptImpl类的实现,对比下图和2.1.《2》的第一张图可知。
在这里插入图片描述
当调用read.Value()函数的时候会调用到wavholder的value,返回对应的wav数据。

2.2、写入流程

以copy-feates为例,此例输出两个文件,输入是out.ark文件

copy-feats --compress=true --write-num-frames=ark,t:utt2num_frames.1 ark:out.ark ark,scp:raw_fbank_test.1.ark,raw_fbank_test.1.scp

raw_fbank_test.1.scp内容如下,为key及对应ark文件的路径,最后面的数字代表读取数据时偏移字节数,如读取时偏移29字节。
在这里插入图片描述
《1》、写文件实例构造流程
CompressedMatrixWriter kaldi_writer(wspecifier); —> typedef TableWriter<KaldiObjectHolder >CompressedMatrixWriter;

TableWriter初始化的时候会调用Open函数,针对本例Open函数里面实例化impl_ = new TableWriterBothImpl();
在这里插入图片描述实例化成功后就调用TableWriterBothImpl的Open函数,里面解析出ark及scp格式文件的文件路径然后执行实际的文件打开操作。

《2》、数据写入
TableWriterBothImpl的Write函数辅助数据写入。scp的写入简单故跳过,主要看ark文件的。

  • ark文件首先写入key值和一个空格。
    在这里插入图片描述
  • 然后调用Holder的Write函数,此例中Holder为KaldiObjectHolder,KaldiObjectHolder的Write函数中调用CompressedMatrix的Write函数。
    在这里插入图片描述
  • 最终的CompressedMatrix调用
    在这里插入图片描述
    上图的data_来源于CompressMatrix构造,此例来自于copy-feats.cc的,如下:
    在这里插入图片描述
    注意CompresseMatrix和非压缩的Matrix的转化,做移植时用的上。

3、参考

《1》、Kaldi I/O mechanisms

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值