Kaldi的data目录解析

最新推荐文章于 2021-07-16 02:13:42 发布

weixin_30757793

最新推荐文章于 2021-07-16 02:13:42 发布

阅读量138

点赞数

原文链接：http://www.cnblogs.com/JarvanWang/p/7499597.html

版权

data/test

# things in data/*test* and data/*train*

cmvn.scp # Start point of every audio feature at ark file(binary) after CMVN(Cepstral Mean and Variance Normalization)

feats.scp # Start point of every audio feature at ark file(binary)

spk2utt # speaker name to his(her) utterance

text # Audio names and corresponding text

utt2spk # utterance to its speaker name

wav.scp # Location of every audio

/splitN # A directory used to split task into N parts, each part has splited things above

data/lang

# thing in data/*lang*, which is a language directory

/phones
- align_lexicon.txt
  
  WORD WORD PRONUNCIATION
  
  e.g.
  
  HI HI HH_B AY_E

/tmp

G.fst # Grammar's finite state transducer

L.fst # Lexicon's finite state transducer

L_disambig.fst # disambigous lexicon's finite state transducer

oov.int # IDs of out of vocabulary phones

oov.txt # out of vocabulary phones

phones.txt # phones existed in words.txt file

topo #

words.txt # a word list of each word with its ID, the word existed in text file

转载于:https://www.cnblogs.com/JarvanWang/p/7499597.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30757793

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

[语音识别] kaldi -- aidatatang_200zh脚本解析:检查相关模型

MachineLP的专栏

07-16

463

输入：data/local/lm/3gram-mincount/lm_unpruned.gz 输出：G.fst local/format_data.sh 流程： 1. 解压lm_unpruned.gz并通过arpa2fst转换成G.fst (语言模型概率就成了图权重的一部分) gunzip -c "$arpa_lm" | \ arpa2fst --disambig-symbol=#0 \ --read-symbol-table=data/lang_test/words

[语音识别] kaldi -- aidatatang_200zh脚本解析:数据准备

MachineLP的专栏

07-16

771

输入：解压后的语料库路径（data/aidatatang_200zh）输出：text, wav.scp, utt2spk, spk2utt # Data Preparation: generate text, wav.scp, utt2spk, spk2utt local/data_prep.sh $data/aidatatang_200zh/corpus $data/aidatatang_200zh/transcript || exit 1; 流程： 1.参数/文件夹路径等效验 2.检验是

参与评论您还未登录，请先登录后发表或查看评论

给 kaldi 的egs 目录搬家

q_xiami123的博客

02-27

289

给 kaldi 的egs 目录搬家问题提出服务器有两块硬盘，一块500G SSD固态硬盘, 一块1.8T机械硬盘。固态盘是系统盘，kaldi装在系统盘上了。最近跑librispeech recipe，疯狂下载数据集，把系统盘空间占满了。kaldi下egs目录占用空间最大，如何不改变kaldi目录结构，将egs内容移动到其它磁盘上，给系统盘的瘦身。 egs目录大小 (base) root@ai-PowerEdge-R740:/# du -sh /opt/asr/kaldi/egs/ 251G

KALDI-SV note 目录初始化结构

weixin_38858860的博客

11-06

178

文件名说明创建备注 conf 配置目录手动特征配置文件 local 脚本目录手动特定工程所需脚本 sid 脚本目录符号链接一类工程所需脚本 steps 脚本目录符号链接 KALDI提供数据处理工具 utils 脚本目录符号链接 KALDI提供模型工具...

Kaldi学习之数据准备详细解释说明

热门推荐

llearner的博客

08-25

1万+

文章对Kaldi数据准备做更详细的解释，如有错误，还请指正。数据基本源自Kaldi官网：http://www.kaldi-asr.org/doc/data_prep.html数据准备详细介绍在run.sh中有数据准备各个阶段的脚本。例子中的local/文件夹下是数据准备专用的一些东西。比如RM下的脚本run.sh部分内容：local/rm_data_prep.sh /export/c

AIBigKaldi（一）| Kaldi目录结构（源码解析）

aibigtruth的博客

12-10

1879

本文来自公众号“AI大道理”。 Kaldi是使用c++写的传统语音识别的工具，是基于HMM架构的。 Kaldi的目标和范围与HTK相似。目标是拥有易于修改和扩展的用C++编写的现代而灵活的代码。 Kaldi的目标是为构建语音识别系统提供完整的配方，这些配方可从语言数据库（LDC）提供的数据库中获得。 Kaldi并不是一个深度学习框架，因此现在火热的端到端语音识别用kaldi并不是很好实现。端到端语音识别的实现可以用PyTorch-Kaldi、ESPnet等。 1 Kaldi架构 Ka..

KALDI脚本文件解释

weixin_38858860的博客

11-18

2298

Kaldi脚本运行的说明：http://kaldi-asr.org/doc/tutorial_running.html 有一个例子是从RM数据集创建训练集和测试集（/export/corpora5/LDC/LDC93S3A/rm_comp是数据集路径） local/rm_data_prep.sh需要自己编写，运行命令 local/rm_data_prep.sh /export/corpora...

kaldi lesson教程示例

q_xiami123的博客

05-19

942

创建示例目录第一步：egs目录下创建lesson文件夹，lesson文件夹创建版本标识文件夹v1 mkdir lesson cd lesson mkdir v1 结果展示 (notebook) root@ai-PowerEdge-R740:/opt/asr/kaldi/egs# ls -l lesson/ total 4 drwxr-xr-x 2 root root 4096 5月 19 10:32 v1 为什么lesson下还要创建v1？ v1表示第一个版本，方便版本管理和path.sh返回

[语音识别] kaldi -- aidatatang_200zh脚本解析:词典准备

MachineLP的专栏

07-16

445

输入：text（所有录音的分词文本信息- 如果是自己的数据没有人工分词可能要提前jieba等工具分词一下）输出：data/local/dict文件夹(含extra_questions.txt、lexicon.txt、silence_phones.txt、nonsilence_phones.txt、optional_silence.txt等文件) local/prepare_dict.sh || exit 1; 流程： 1.处理自身数据集 - 获取数据集中所有单词【从text中获取】->

Kaldi-yesno详解

nsh119的博客

08-11

6242

在Kaldi的egs文件下有很多基于公共语音数据库的训练步骤及测试结果，其中也有中文的，本文就相对很简单的yesno样例结合脚本以及脚本运行结果进行详细的解析，以更好地理解语音识别的整体流程。总括我们先来看一下run.sh脚本 cd ./egs/yesno/s5/ vi run.sh =================================================...

Kaldi学习笔记（二）——实例yesno和timit的应用

snowdroptulip的博客

12-27

8943

Kaldi的安装与编译请参考：Kaldi的安装与编译 Kaldi的例子有很多，在egs目录下面，对Kaldi不熟悉的小白们可以先从yesno和timit两个例子入手，这样可以对Kaldi有个直观的认识。一、运行yesno实例该实例是一个非常小的数据集，每一条记录都是一系列yes或者no的语音，标注是由文件名来标注的。先运行一下。切换到./egs/yesno/s5目录下，运行sudo.

kaldi中文语音识别_基于thchs30(5)

dqxiaoxiao的博客

05-23

6752

接上回if [ -f $data/segments ]; then #这里是查看data/mfcc/train下是否存在segments，如果存在则执行then后面的脚本，否则执行else后面的，这个文件不存在，所以之后调用else后面的处理 echo "$0 [info]: segments file exists: using that." split_segments="" for...

kaldi平台上aishell运行时出现的问题及解决办法

程序猿专栏

05-10

4974

问题 1： This script is intended to be used with GPUs but you have not compiled Kaldi with CUDA If you want to use GPUs (and have them), go to src/, and configure and make on a machine where "nvcc" is i...

Kaldi 运行报错：fix_data_dir.sh: no utterances remained: not proceeding further.

一听音频技术

04-09

1853

The fix_data_dir.sh script eliminates some utterances if something is missing from one of the files needed (e.g. text, feats.scp, wav.scp) so if you had an empty or invalid wav.scp at input, it would...

kaldi-yesno例子

cg_speech的博客

07-25

1678

"yesno"语料库是一个非常小打一个人的录音数据集，测试集在单声道阶段完全被识别 WER（WordError Rate）是字错误率，是一个衡量语音识别系统的准确程度的度量。其计算公式是WER=(I+D+S)/N， I代表被插入的单词个数 D代表被删除的单词个数 S代表被替换的单词个数通俗来讲是把识别出来的结果中，多认的，少认的，认错的全都加起来，除以总单词数。这个数字当然是越低越...

kaldi 数据准备错误集

韩佳俊的博客

07-16

3328

问题1：utils/validate_data_dir.sh: file data/sre/utt2spk is not in sorted order or has duplicates 解决方法：解决方法，你可以这样试一下。 utils/fix_data_dir.sh data/train #这段代码可以帮你解决问题。在steps/make_mfcc.sh之前加上上面的代码！！...

kaldi的语音识别数据timit例子详解

DanyHgc的博客

07-17

9943

本文将以 kaldi 中 timit 的例程来看整个 run.sh 脚本的执行过程。数据准备请先进入 kaldi\egs\timit\s5\ 这个目录。运行环境由于 kaldi 可以在本地运行，也可以在 Oracle GridEngine 上运行，因此，请修改 cmd.sh。如果你是在本地运行，请输入 export train_cmd="run.p

kaldi常用的工具

zjm750617105的专栏

09-14

1万+

本文部分参考自： http://www.360doc.com/content/15/0101/10/13208159_437287894.shtml 样例是用自己的数据跑的，改编自wsj，文件名称不是很标准，但重点是工具的使用，加路径是为了好理解，内容暂时不解释，以后有时间来补充。这个文档太棒了，理解每一个步骤，语音识别的整个流程也就懂了，太赞 1. 查看生成的后缀为fst的状态机文件，比

kaldi-yesno文件说明

weixin_42831564的博客

05-17

722

已经运行过的yesno示例，生成的文件如下： ├── conf 配置文件夹 │├── mfcc.conf │└── topo_orig.proto ├── data yesno运行产生的相关文件 │├── lang 跟语言相关执行lang相关脚本产生的跟音素相关的文件 ││├── L_disambig.fst ││├── L...

Kaldi深度解析：声学模型与使用教程

- 提供了Kaldi内部决策树的使用方法和深度解析。 5. **附录**： - 包含了实践性的教程，如在VS2013中编译Kaldi，以及Kaldi学习联盟群的讨论记录。 - 对于进一步学习和交流，文档还推荐了其他资料和资源，以及...