【语音识别】Kaldi学习之数据整理（2）

最新推荐文章于 2024-06-25 15:28:20 发布

镰刀韭菜

最新推荐文章于 2024-06-25 15:28:20 发布

阅读量1k

点赞数 1

分类专栏：语音识别与实战文章标签： Kaldi 数据预处理 spk2utt 语言数据 MFCC

本文链接：https://blog.csdn.net/ARPOSPF/article/details/115339398

版权

语音识别与实战专栏收录该内容

14 篇文章 27 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Kaldi数据预处理的过程，包括环境检查、表单文件生成、数据检查、语言数据处理及Kaldi的文件存储格式。内容涉及FLAC转WAV、说话人和句子信息提取、发音词典、静音和真实音素定义，以及各种表单文件的作用和生成。通过对Librispeech数据集的处理示例，展示了如何将原始数据转化为适合Kaldi训练的格式。

摘要由CSDN通过智能技术生成

数据整理

2. 数据预处理

2. 数据预处理

数据预处理是将原始数据的文件结构转换为Kaldi通用脚本可以处理的格式。Librispeech的预处理脚本是local/data_prep.sh。本文分析该脚本的处理步骤，展示如何准备模型训练所需的数据环境。

Librispeech的总脚本（run.sh）第2阶段如下：

if [ $stage -le 2 ]; then
  # format the data as Kaldi data directories
  for part in dev-clean test-clean dev-other test-other train-clean-100

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

镰刀韭菜

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

订阅专栏

kaldi语音识别教程

12-13

总的来说，该教程涵盖了从语音信号处理、特征提取、模型构建到实际应用等多方面知识，为读者提供了一个全面学习和实践kaldi语音识别的平台。通过深入理解这些知识点，读者能够掌握如何使用kaldi工具包来构建性能优良...

kaldi 神经网络

xmdxcsj的专栏

01-23

5439

overview type author CPU/GPU feature nnet1 Karel GPU单卡训练使用pre-training，使用early stopping nnet2 Dan 支持多GPU训练，以及多CPU多线程使用固定epoch个数，最后几个epoch参数平均 nnet3 Dan 是nnet2的扩展支持更多的网

参与评论您还未登录，请先登录后发表或查看评论

KALDI运行yesno和TIMIT实例

总有人要摆烂的，为什么不能是我呢

05-29

1382

文章目录写在前面一、部署KALDI1. 下载并解压KALDI工具箱2. tools中执行extras/check_dependencies.sh脚本，根据其输出安装依赖库直到输出ALL OK3.make4. src中执行./configure –shared5. src中执行make depend和make二、运行yesno项目实例，简要解析发音词典内容，画出初步的WFST图1. 下载并划分数据集2. 建立词典3. 构造语言模型4. MFCC特征提取和GMM-HMM建模5. 查看结果三、调整并运行.

使用kaldi的sherpa-onnx根据文字语音合成（英文）

热门推荐

u010384318的专栏

05-19

2万+

数据准备译者：V (shiwei@sz.pku.edu.cn) 水平有限，如有错误请多包涵。介绍在运行完示例脚本后（见Kaldi tutorial），你可能会想用自己的数据在Kaldi上跑一下。本节主要讲述如何准备相关数据。我们假设本页的读者使用的是最新版本的示例脚本（即在脚本目录下被命名为s5的那些，例如egs/rm/s5）。另外，除了阅读本页所述内容外，你还可以查看脚本目录下的那

Kaldi脚本分析（1）——数据准备

baidu_36137891的博客

09-05

6553

1 数据准备数据准备阶段的输出包含两个部分：一部分与“数据”相关，保存在data/train、data/dev、data/test之类的目录下，“数据”部分与特定的录音数据有关，包括训练测试集划分、音频分段、文本标注、发音标注、说话人信息等；另一部分与“语言”相关，保存在data/local、data/dict、data/lang、data/graph目录下，“语言”部分与当前使用的语言本身相

kaldi语音识别资料.rar_kaldi_kaldi pdf 0.7_kaldi资料_语音识别

07-13

基于kaldi的语音识别小系统搭建以及kaldi的全部资料

基于Kaldi+GStreamer搭建线上的实时语音识别器

01-06

2、sudo pip2 install ws4py==0.3.2 3、sudo pip2 install pyyaml 4、sudo pip2 install ...

PyTorch-Kaldi 语音识别工具包概述.pdf

04-03

这一技术突破的关键因素之一是深度学习的应用，它帮助克服了基于高斯混合模型（GMMs）的语音识别器。除了深度学习之外，其他因素也在该领域的发展中起到了一定的作用。例如，一些与语音相关的项目如AMI、DICIT、...

语音识别kaldi安装

12-13

例如，你可以使用Kaldi来识别语音信号，并将其转换为文本信息。 2. 优点：Kaldi的优点是它提供了一个灵活的框架，可以用来构建语音识别系统。此外，Kaldi还提供了许多有用的工具和库，可以用来处理语音信号。 3....

Kaldi学习之数据准备详细解释说明

llearner的博客

08-25

1万+

文章对Kaldi数据准备做更详细的解释，如有错误，还请指正。数据基本源自Kaldi官网：http://www.kaldi-asr.org/doc/data_prep.html数据准备详细介绍在run.sh中有数据准备各个阶段的脚本。例子中的local/文件夹下是数据准备专用的一些东西。比如RM下的脚本run.sh部分内容：local/rm_data_prep.sh /export/c

Kaldi的简单介绍和基本使用说明

DL_62532的专栏

12-03

1万+

Kaldi作为目前最流行的ASR开源项目之一，已被广泛研究和使用。自从2019年Daniel Povey加入小米，小米和Kaldi相互成就，大大推动了Kaldi的发展，使Kaldi保持了持续、强劲的生命力。 Kaldi使用了最自由的授权协议，任何人都可以自由修改和使用（包括商用），大家不妨也来用用。本文大概讲了语音识别的原理和过程，对kaldi的安装、训练和部署在线语音识别服务的一整套使用过程作了大概说明，可以作为初学者的入门资料来参考。非常欢迎大家来共同交流，不足之处还望批评指正。

kaldi数据准备，Subtools数据准备，详细分享Asv-Subtools数据准备，小白必看！

JYT666666的博客

12-25

945

有没有刚开始接触kaldi的小伙伴们，也像我一样，感觉理论很多，但是上手就崩。俗话说：“万事开头难”，数据准备就是kaldi实验的开始。因为我上手直接学习，我绕过kaldi，直接学习使用asv-subtools。但是subtools里面没有关于数据准备的代码。网上关于asv-subtools的内容也少之又少。然而kaidl和subtools的数据准备一样。所以我就把目光投向了kaldi的数据处理。我想通过kaldi学习有关数据的处理。kaldi数据准备，asv-subtools数据准备，小白必看！~

kaldi基础介绍（一）在说话人识别中的数据准备

monsieurliaxiamen的博客

04-03

7604

在kaldi说话人识别示例（egs/sre10,egs/sre16）中，数据总共有两大类，一是训练集（training），二是评估数据集（evaluation）。对于评估数据集又分为两类，一是用来注册（enrollment）的数据集，二是测试（test）集。一、训练集的准备训练集需要准备的文本文件是三类：spk2utt, utt2spk以及wav.scp1 spk2utt 是说话人id（记作spk...

AIBigKaldi（三）| Kaldi的数据准备（源码解析）

aibigtruth的博客

12-12

881

本文来自公众号“AI大道理”。正所谓巧妇难为无米之炊。对于语音识别任务来说，对于Kaldi来说，数据就是这个米。在进行特征提取、模型训练之前，首先要做的就是数据准备。以最简单的YesNo为例。 1 YesNo实例结构其中：文件夹脚本 2 脚本解析 cmd.sh 源码解读：这里的queue.pl为kaldi调用的gridengine，是一种多cpu（gpu）的一种并行处理的方案。如果是slurm其他并行任务分发软件配合，则...

aishell详细脚本解析---kaldi入门实战（1）--数据准备

qq_57461500的博客

06-21

1638

总共178小时，400个人讲，其中训练集340个人，测试解20个人，验证集40个人，每个人大概讲三百多句话，每个人讲的话都放在一个文件夹里面。PS：文件压缩包就有将近17个g，所以我们在设置虚拟机容量时最好设置的大一点，我一般直接设80g，kaldi加数据集就将近45g，还要解压。

Kaldi特征提取之-预处理

当凌绝顶,俯瞰天下

09-20

4330

Kaldi特征提取之-预处理背景本质上语音信号是一维的时间信号，随时间上下波动。现实中，人们再说话时会受到各种音素的干扰，为了进一步进行处理，我们必须进行必要的预处理以便之后的特征提取。诸如FBank，MFCC，PLP等都需要经过预处理步骤。本章将假设语音的格式为wav。预处理整个预处理过程如下图所示：分帧从图中可以看出我们需要将不定长的音频切分成固定长度的小段，这一步称为分帧。分帧的原

语音识别新手入门：kaldi教程与学习建议

本文主要针对语音识别领域的初学者，提供了一些学习建议和指导，尤其是对于那些希望通过Kaldi进行语音识别研究的人来说。作者强调了良好的数学、英语基础以及计算机技能的重要性。 1. 学生角度 - 基础部分：对本科...